一文带你了解爬虫

前段时间我妈突然问我:儿子 , 爬虫是什么?我当时既惊讶又尴尬 , 惊讶的是为什么我妈会对爬虫好奇?尴尬的是我该怎么给她解释呢?
一、爬虫介绍1.爬虫是什么
网络爬虫(web crawler 简称爬虫)就是按照一定规则从互联网上抓取信息的程序 , 既然是程序那和正常用户访问页面有何区别?爬虫与用户正常访问信息的区别就在于:用户是缓慢、少量的获取信息 , 而爬虫是大量的获取信息 。

一文带你了解爬虫

文章插图
 
这里还需要注意的是:爬虫并不是Python语言的专利 , JAVA、Js、C、php、Shell、Ruby等等语言都可以实现 , 那为什么Python爬虫会这么火?我觉得相比其他语言做爬虫Python可能就是各种库完善点、上手简单大家都在用 , 社区自然活跃 , 而社区活跃促成Python爬虫慢慢变成熟 , 成熟又促使更多用户来使用 , 如此良性循环 , 所以Python爬虫相比其他语言的爬虫才更火 。
下面是一段hello world级别的Python爬虫 , 它等效于你在百度搜索关键字:python 。
一文带你了解爬虫

文章插图
 
2.爬虫案例
既然爬虫是大量抓取网页 , 那是不是爬虫都是不好的呢?答案当然不是 , 可以说我们的日常上网已经离不开爬虫了 , 为什么这么说?下面我就为大家盘点几个爬虫日常应用:
  1. 搜索引擎:如google、百度、雅虎、搜狗、必应等等很多搜索引擎其本质就是一个(可能多个)巨大爬虫 , 这些搜索引擎工作原理是:页面收录->页面分析->页面排序->响应关键字查询 , 也就是说它会先把互联网上很多页面保存到服务器 , 然后分析网页内容建立关键字索引 , 最后用户输入关键字的时候去查询内容 , 然后根据相关性排序(百度害人的竞价排名毫无相关性可言) , 第一步的页面收录就是爬虫 , 百度查看一个网站有多少网页被收录方法 , 百度输入:site:你想查询的网站 , 如:site:blog.csdn.net 。

一文带你了解爬虫

文章插图
 
  1.  
  2. 抢票软件:很多人在吐槽12306卡 , 可你不知道12306几乎每天都相当于淘宝双11的流量 , 这谁受得了 。为什么每天都是如此高的流量?答案自然是爬虫了 , 为什么抢票软件可以抢票?因为它在不断的刷新和监控是否有余票 , 大大小小这么多抢票App , 访问量之高可想而知 。之前很多公司都出过抢票插件 , 如:百度、360、金山、搜狗等等 , 后来都被铁道部约谈下线了 , 而现在又流行抢票app , 为什么抢票app可以 , 插件就不可以?可能是因为管理和可控性的原因 。
  3. 惠惠购物助手:这是一款能进行多个网站比价并能知道最低价的一个网站 , 其工作原理也是通过大量爬虫爬取商品价格然后存储 , 这样就可以制作一个价格走势图 , 帮助你了解商品最低价 。

一文带你了解爬虫

文章插图
 
二、爬虫的价值从上面举的几个例子来看 , 爬虫对整个互联网的价值真的无法估量 , 那对于小我而言 , 爬虫能给我们带来哪些价值?
1.隐形的翅膀
如果你问我学完Python基础之后该学习什么技能?我会毫不犹疑的说爬虫 , 为什么是爬虫?
  1. 爬虫相对其他技能简单易学 , 且效果立即可见 , 会有一定的成就感
  2. 爬虫可以说是其他技能的基石 , 因为他是数据的来源 , 现在这个时代谁有数据谁才能称王 , 所以会爬虫绝对会让你如虎添翼
  3. 在国内 , 很多企业巴不得你啥都会 , 所以在应聘时 , 爬虫会是一个不错的加分项
2.看不见的商战
职场对话:
老板:小明给你个重要任务 。
小明:就算996我也在所不辞(第一次接到老板的直接需求)!
老板:你能不能搞到竞争对手的商品价格?
小明:没问题(牛逼先吹出去) , 小事!
老板:这可不是小事 , 只要你能持续获取竞品价格 , 我们就可以标价低于他们一点点 , 持续如此大家就知道我们的价格肯定是比他们低 , 这样大家就直接来我们这里购买商品了 , 到时候庆功宴上你就是最大功臣(先画个饼) 。


推荐阅读