新媒体课堂：pythoPython爬虫实战二查看上一节：python爬虫分类和robots协

查看上一节：python爬虫分类和robots协议
python爬虫urllib使用和进阶上节课已经介绍了爬虫的基本概念和基础内容，接下来就要开始内容的爬取了。
其实爬虫就是浏览器，只不过它是一个特殊的浏览器。爬取网页就是通过HTTP协议访问相应的网页，不过通过浏览器访问往往是人的行为，把这种行为变成使用程序来访问就是爬虫的过程。
用户在使用浏览器的时候，翻阅速度是比较慢的，但是爬虫在访问的时候速度是很快的，它会很快的获取到页面上的内容，并将其变成自己网站的内容，所以对于开发者来讲，对于这些搜索引擎的爬虫是又爱又恨的。
有的网站会设置反爬虫策略来拒绝爬虫对网站内容的爬取要求。此时我们要爬取这种网站的话，是要对程序进行包装的，尽量去模拟人的行为来获取网站内容。
urllib包urllib是Python提供的一个工具包，用来处理url和相应的一些内容的。
Python2中提供了urllib和urllib2 。 urllib提供较为底层的接口， urllib2对urllib进行了进一步封装。 Python3中将urllib合并到了urllib2中，并只提供了标准库urllib包。我们重点使用的是Python3 ，但是它们的接口都是相同的，掌握了就可以在任何场景使用。
urllib还有一些子包，分别介绍下：
urllib.request模块（用的比较多）用于打开和读写url 。模块定义了在基本和摘要式身份验证、重定向、cookies等应用中打开URL（主要是HTTP）的函数和类。
urllib.error包含了由urllib.request引起的异常urllib.parse用于解析urlurllib.robotparser分析robots.txt文件urlopen方法格式：urlopen(url ， data=https://pcff.toutiao.jxnews.com.cn/p/20200411/None)注释：url是链接地址字符串，或请求对象。 data是提交的数据，如果data为None发起GET请求，否则发起POST请求。见urllib.request.Request#get_method返回http.client.HTTPResponse类的响应对象，这是一个类文件对象。接下来看一段代码：

文章图片
验证其中的“返回真正的URL”：打开http://www.bing.com按下F12打开其中的Network状态栏，点击刷新：

文章图片
可以看到第一个访问的是必应网站，这里的301代表的意思是，首先打开必应的网站，然后通过持久的移动到中国的必应网站；这里的location是跳转位置， 301代表永久的跳转， 302代表的是临时的跳转；代码运行结果：

文章图片
可以发现， urlopen是可以自动跳转的。总结：上例，通过urllib.request.urlopen方法，发起一个HTTP的GET请求， WEB服务器返回了网页内容。响应的数据被封装到类文件对象中，可以通过read方法、readline方法、readlines方法获取数据， status和reason属性表示返回的状态码， info方法返回头信息，等等。 User-Agent问题上例的代码非常精简，即可以获得网站的响应数据。 urlopen方法只能传递url和data这样的数据，不能构造HTTP的请求。例如useragent 。源码中构造的useragent如下：

文章图片
当前显示为：Python-urllib/3.6有些网站是反爬虫的，所以要把爬虫伪装成浏览器。随便打开一个浏览器，复制浏览器的UA值，进行伪装。 UA值获取方法：打开浏览器的设置。选择高级，选择自定义UserAgent字符串，随意切换想要的UA值。

新媒体课堂：pythoPython爬虫实战二

推荐阅读

[科技全报导]空气净化器十大品牌选购，新房母婴快速去除甲醛应该这样做

还要|为何古人中了探花比中状元还要高兴？真实原因让人不敢相信

吖有科技|18分钟18分！宏远1米96三分射手迎爆发，苏伟真不应该说他了

「华为p40」用样张说话华为P40系列10倍光学变焦造就摄影王者

行业互联网提高财务处理效率，加强企业财务管理，“好账先生”专业由此体现

黑砖茶怎么泡制,黑砖茶的泡冲水温

问董秘|请帮忙查询截止6.8股东人数。谢谢，投资者提问：董秘您好

中国新闻网|纽约华裔遛狗时遭语言攻击受害者呼吁华裔勇敢发声

「天天科技范」诺基亚将首发屏下镜头，宝刀不老

『科技之感』究竟好不好？听听刘慈欣的想法，生活在虚拟现实里面

专业微单相机推荐：性能出众佳能EOS R5高速连拍功能震撼来袭

文汇网|诺兰最新大片《信条》确认引进，档期待定

和领导关系僵到无法工作咋办

乐喜力丝▲乱“发”渐欲迷人眼，将绚丽进行到底！，春光灿烂

翡翠|怎么分辨自己的翡翠是不是染色的

「养生乐活美少女」看看有没有你们，恋爱后一年比一年更恩爱的三对星座

杨万里是哪个诗人,杨万里是什么朝代的著名诗人-

美国|美国加入对微信封杀腾讯公告：正在评估

国医大师健康让父母看清这个世界，一个暖心又特别的礼物

东部战区|18架战机挂实弹进入台海，东部战区发话：丢掉幻想，准备战斗！