Python 爬虫“学前班”!学会免踩坑( 二 )


当然 readability 还存在利用正则表达式来进行打分的方式,这种方式的效果和上一种方式的效果几乎一样 。简单点说 readability 的原理就是根据经验积累设置出的模型,分数也是根据敬仰不断优化得到的结果,因此这个框架的准确的不是很高,但是可以解放一些人手 。
3.总结和风险预防我们讲解了常见的三种智能爬虫类型,还通过代码的形式学习了 newspaper 和 readability 的使用方法和原理,我们可以利用这篇文章学到的内容来编写自己的爬虫,同时对爬虫的开发有了更进一步的了解 。
爬虫目前处于法律的灰色地带,用好了会给个人/公司带来很大的收益,反之会给个人/公司带来法律风险 。因此我们在使用爬虫的时候必须要遵循目标网站 robots.txt 文件中的规定,同时也要控制爬虫对目标网站的爬取速度和频率,防止对目标网站造成压力,甚至破坏数据信息 。
作者简介:朱钢,笔名喵叔,CSDN博客专家,.NET高级开发工程师,7年一线开发经验,参与过电子政务系统和AI客服系统的开发,以及互联网招聘网站的架构设计,目前就职于北京恒创融慧科技发展有限公司,从事企业级安全监控系统的开发 。
【END】




推荐阅读