爬虫爬了数千汽车网站,有何算法自动提取其中汽车配置信息

属于Web Content Mining范畴,有很多这方面论文,基本思路机器学习方法,从positive sample中学习pattern。自己用组合算法玩过三个自己设计的算法(两个我自己做的,一个同事做的),看了下效果,从来自上万网站10T的数据上亿网页里抓项目所需要的行业信息,做出来以后人工采样判断准确率,配合已有gold standard数据判断,准确率很不错。


    推荐阅读