\＂通用爬虫\＂可行吗,或者说近乎\＂通用爬虫\＂? 这个还真的可

这个还真的可以有，我们公司就做过一款近似通用的爬虫工具。主要是用于文章类型的网站数据爬取。比如新闻资讯类网站，政府招标公告类网站。通输入主域名，限制参数（深入层级，匹配规则（正则表达式）等），然后程序会自动一层一层爬取该站点下的全部数据。
有兴趣的话，可以在这了解或咨询品牌舆情大数据监控 - 八爪鱼采集器

■网友
谢谢邀请
$\＂通用爬虫\＂可行吗,或者说近乎\＂通用爬虫\＂?$

应该可以的，整个网页html 是一个树结构。
我觉得应该从数据结构上下功夫，不断修正自己的抽取规则。发现新的，就添加。
这个思路是：先定义抽取规则，去万能的适应所有的html, 不断修正。
如：\u0026lt;div\u0026gt; 中有 “comment” 等，说明是评论。这样的规则添加多了，自然就能抽取相关文本。

■网友
firepath查看xpath然后解析，已经很不需要人力了
■网友
这个已经有库 https://www.npmjs.com/package/readability ，就是浏览器上面那个「阅读模式」。当然，有很大的改进空间。
■网友
【\"通用爬虫\"可行吗,或者说近乎\"通用爬虫\"?】 我认为都可以抽象成2个条件，1，访问哪个url，2，数据对应的xpath是什么。

■网友
大搜索引擎公司专门有团队做这个，难度极大

\＂通用爬虫\＂可行吗,或者说近乎\＂通用爬虫\＂?

推荐阅读

『幽默笑话乐翻天』机智，笑话十则：其他单位或个人不得扣留此证！我太有法律意识了

h61主板升级换什么主板?h61主板升级成什么主板好

▲女性洗澡时搓下的黑泥是什么？显微镜放大200倍，看完瞬间就懂了！

石头|神话剧中由石头诞生的五大神魔，孙悟空实力第四，第一是女娲后裔

电扇电扇如何选购电扇故障怎么办

英雄联盟|TES爆冷不敌FLY！企鹅电竞EDG阿布找出问题所在：有三点

曼联|第77分钟绝杀！1-2！曼联轰然倒下，惨遭西甲劲旅逆转，无缘决赛

新华社|“双节”喜相逢，一样家国情——全国各地欢度国庆中秋佳节扫描

安静的胖大海 |当时我们全家都在医院看她，「开心一刻」我大姐有一次生病了

丁路遥知事|是在害自己？不要用老眼光看问题，年轻人过早拿高薪

上了大学后因为一款游戏还能和高中最好的哥们混一起你们咋看?

央视|议员人数将从945名减至600名，意大利通过修宪公投

冯润尚领房地产简介

长期喝碧生源常润茶影响健康吗

同时看完李贤平的概率论基础与茆诗松的概率论与数理统计值得吗

啊娟说娱乐|对方立马不借了，管用又不伤感情！，亲戚朋友向你借钱？教你四个方法

新华网|东洞庭湖迎来今年首批冬候鸟逾2万只

鼎盛烽火营历史已验证多次，世界各国需时刻警惕，战争爆发前的3大征兆

魔法佳人|蒂王偏爱什么色?冷白皮的斯文顿威尼斯再出新穿搭

扦插 4种花“适宜”在五月扦插，2周生根、下个月就开花，别花钱买了