\"通用爬虫\"可行吗,或者说近乎\"通用爬虫\"?
这个还真的可以有,我们公司就做过一款近似通用的爬虫工具。主要是用于文章类型的网站数据爬取。比如新闻资讯类网站,政府招标公告类网站 。通输入主域名,限制参数(深入层级,匹配规则(正则表达式)等),然后程序会自动一层一层爬取该站点下的全部数据。
有兴趣的话,可以在这了解或咨询品牌舆情大数据监控 - 八爪鱼采集器
■网友
谢谢邀请
应该可以的,整个网页html 是一个树结构。
我觉得应该从数据结构上下功夫,不断修正自己的抽取规则。发现新的,就添加。
这个思路是:先定义抽取规则,去万能的适应所有的html, 不断修正。
如:\u0026lt;div\u0026gt; 中有 “comment” 等,说明是评论。这样的规则添加多了,自然就能抽取相关文本。
■网友
firepath查看xpath然后解析,已经很不需要人力了
■网友
这个已经有库 https://www.npmjs.com/package/readability ,就是浏览器上面那个「阅读模式」。当然,有很大的改进空间。
■网友
【\"通用爬虫\"可行吗,或者说近乎\"通用爬虫\"?】 我认为都可以抽象成2个条件,1,访问哪个url,2,数据对应的xpath是什么。
■网友
大搜索引擎公司专门有团队做这个,难度极大
推荐阅读
- 商家通过低保户购物而把自己的利润返还赠送低保户安装宽带或者旧电脑可行吗
- 雨下|全球关于禁售燃油车只是理论上可行吗
- python 爬虫,咋获得输入验证码之后的搜索结果
- 不懂技术,不会编写程序的人当项目经理,管项目,管人,行吗
- 沿河路|沿河路终点路段画线停车,可行吗?
- 一个利用量子纠缠实现超光速通讯的构想,可行吗
- 未来汽车日报|通用汽车不再持股Nikola,后者股价狂跌25%
- 大学计算机相关专业,大四参加计算机培训班可行吗
- 汽车|五大车企发展规划研究(大众|丰田|日产|通用|现代)
- 1、相同的网址,为啥浏览器http和https都能登录,而爬虫不行\n2、网页下载内容不全