Python 爬虫“学前班”!学会免踩坑

作者 | 喵叔
责编 | 胡巍巍
出品 | CSDN(ID:CSDNnews)
爬虫应用的广泛,例如搜索引擎、采集数据、广告过滤、数据分析等 。当我们对少数网站内容进行爬取时写多个爬虫还是有可能的,但是对于需要爬取多个网站内容的项目来说是不可能编写多个爬虫的,这个时候我们就需要智能爬虫 。
智能爬虫目前有三种:
1. 基于网页内容的爬虫
当网页含有大量需要提取的信息时,我们就需要用到基于网页内容的爬虫 。该爬虫会将 html 视为文本并利用 NLP 技术进行处理 。
虽然说这种基于网页内容的爬虫可以减少爬虫的数量,但是需要人工参与进行训练 NLP 模型,没有 AI 开发经验或 AI 开发经验很少的程序员很难写出这类爬虫,并且爬虫爬取时间很长效率还很低 。
2. 基于DOM结构的爬虫
【Python 爬虫“学前班”!学会免踩坑】基于DOM结构的爬虫相对来说比较简单,就是将 HTML 解析为 DOM 树,然后根据语法结构进行提取信息,这种方法效率和准确性都比前一种方法高 。
3. 基于视觉的爬虫
基于视觉的爬虫的开发难度同样很高,它是通过浏览器接口或者浏览器内核对目标页面进行袁燃,然后基于网页的视觉规律提取网页数据 。这种爬虫需要利用神经网络中的 CNN 卷积神经网络获取页面特定区域的内容 。
目前比较常用的只能爬虫框架是 Readability 和 Newspaper。下面我们就来看一下这两个框架的讲解 。
1.NewspaperNewspaper 是一个利用 NLP 的智能爬虫框架,可以从页面中提取出很多内容 。安装这个爬虫框架需要首先安装依赖:
shellsudo apt-get install libxml2-dev libxslt-devsudo apt-get install libjpeg-dev zlib1g-dev libpng12-dev在上述安装中如果出现 libpng12-dev 出现错误,就需要安装 libpng-dev。
接下来就需要安装 NLP 语料库:
shellcurl https://raw.githubusercontent.com/codelucas/newspaper/master/download_corpora.py | Python3最后我们安装 Newspaper 爬虫框架:
shellpip install newspaper3k下面我们就通过一个例子来看一下 newspaper 框架怎么使用:
pythonfrom newspaper import Articleurl = 'https://www.ithome.com/0/445/071.htm'article = Article(url, language='zh')article.downloadarticle.parseprint('作者', article.authors)print('标题', article.title)print('发布日期', article.publish_date)print('正文', article.text)article.nlpprint('关键词', article.keywords)print('摘要', article.summary)上述代码中 language='zh' 告诉 newspaper 我们抓取的是中文网页 。newspaper 会首先下载页面,然后利用 parse 方法解析页面 。页面解析后就可以获取到作者、标题、发布日期等内容,如果要提取关键字和摘要,就可以使用 nlp 方法 。
我利用多个不同网站的 URL 进行测试发现,部分内容的作者和发布日期会解析不出来,有些内容甚至获取的不正确,但是对于英文内容还是识别率很高的 。如果要提高对中文的识别率,可以更换 newspaper 中的使用的分词库(目前 newspaper 使用的分词库是结巴分词),或者改变所使用的内容识别模型 。
2.ReadabilityReadability 是一个爬虫算法,它在 python 中的名称叫 readability-lxml 同样我们也可以通过 pip 命令来安装:
shellpip install readability-lxml安装完之后我们只需导入 readability 即可,我们来看一下例子:
pythonimport requestsfrom readability import Documenturl = "https://www.ithome.com/0/444/503.htm"html = requests.get(url).contentdoc = Document(html)print("title:", doc.title)print("content:", doc.summary(html_partial=True))这里我们使用 requests 库请求页面,然后将获取到的 html 内容传递给 readability 中的 Document 类,接着我们调用了 title 和 summary 方法来获取标题和正文 。这样我们就获取到了标题和正文 。
summary 方法中的 html_partial 意思是石否过滤掉返回结果中的 html 和 body 标签 。readability 所返回的正文内容会有很大的可能包含页面 html 元素,这就需要我们进行二次过滤或提取 。
readability 获取 title 的方法很简单,就是直接获取页面 title 元素中的内容,但是获取正文的方法就麻烦了,它是给每个节点打分,比如遇到 article 元素就会加上 5 分(源码中就是加上5 分),因为 article 元素有可能是正文内容或正文内容的一部分 。
如果遇到 ol 元素就意味着它有可能不是正文内容,因此减掉3分,最后得分最高的那个元素就很有可能是正文或者正文内容 。


推荐阅读