\"通用爬虫\"可行吗,或者说近乎\"通用爬虫\"?

这个还真的可以有,我们公司就做过一款近似通用的爬虫工具。主要是用于文章类型的网站数据爬取。比如新闻资讯类网站,政府招标公告类网站 。通输入主域名,限制参数(深入层级,匹配规则(正则表达式)等),然后程序会自动一层一层爬取该站点下的全部数据。
有兴趣的话,可以在这了解或咨询品牌舆情大数据监控 - 八爪鱼采集器

■网友
谢谢邀请
\"通用爬虫\"可行吗,或者说近乎\"通用爬虫\"?

应该可以的,整个网页html 是一个树结构。
我觉得应该从数据结构上下功夫,不断修正自己的抽取规则。发现新的,就添加。
这个思路是:先定义抽取规则,去万能的适应所有的html, 不断修正。
如:\u0026lt;div\u0026gt; 中有 “comment” 等,说明是评论。这样的规则添加多了,自然就能抽取相关文本。

■网友
firepath查看xpath然后解析,已经很不需要人力了
■网友
这个已经有库 https://www.npmjs.com/package/readability ,就是浏览器上面那个「阅读模式」。当然,有很大的改进空间。
■网友
【\"通用爬虫\"可行吗,或者说近乎\"通用爬虫\"?】 我认为都可以抽象成2个条件,1,访问哪个url,2,数据对应的xpath是什么。

■网友
大搜索引擎公司专门有团队做这个,难度极大


    推荐阅读