一文带你了解爬虫( 二 )


小明:老板牛逼 , 老板英明!
3.会爬虫就可以创业
工作之后很多同学会利用上班空余时间 , 来做自己的东西或者项目 , 别看开始是一个小打小闹的东西 , 慢慢丰富将来也许会成为一款成熟的产品 。
而爬虫可以让你很轻松的实现自己的产品 , 做的好的话就可以创业 。这里猪哥给大家列几个简单的创业项目 , 当然作为一个思维引导 。

一文带你了解爬虫

文章插图
【一文带你了解爬虫】 
如果你想做一款好的产品 , 你需要从用户需求出发去思考 , 做解决目前存在的问题的产品或者目前还没有的服务 , 也许你的产品就是下一个头条 。
三、盗亦有道爬虫既然如此强大而优秀 , 那是不是会了爬虫就可以为所欲为?
延伸话题:其实我内心一直有一个疑问:为什么互联网公司都偏爱用动植物来命名或作为logo?如:蚂蚁金服、天猫、菜鸟、金东狗、腾讯企鹅 , 百度的熊掌、搜狗、途牛、美团的袋鼠 。。。真的是太多了 , 难道仅仅是因为好记?我认为好记是一个原因 , 其根本原因是受到编程行业的影响 , 你想想编程行业有多少动植物:Java(咖啡)、Python(蟒蛇)、Go(囊地鼠)、PHP(大象)、linux(企鹅)、Perl(骆驼)、MySQL(海豚)等等 , 具体为什么编程行业喜欢用动植物这猪哥就不清楚 , 还请明白的同学留言告知大家!
讲上面的延伸话题想表达的是 , 大自然世间万物 , 相生相克 , 衡而不祸!而爬虫也是如此 , 下面就为大家介绍一下约束爬虫的几个点 。
1.robots协议
做过网站的同学也许知道 , 我们在建站的时候需要在网站根目录下放一个文件:robots.txt , 这个文件是干什么用的呢?
Robots协议 , 也称为爬虫协议、机器人协议等 , 其全称为“网络爬虫排除标准(Robots Exclusion Protocol)” 。网站通过Robots协议告诉搜索引擎哪些页面可以抓取 , 哪些页面不能抓取 。
每个网站的根目录下都必须放置robots.txt文件 , 否则搜索引擎将不收录网站任何网页 。
下面我们以百度为例子 , 来看看百度的robots.txt文件:
一文带你了解爬虫

文章插图
 
我们在百度robots协议的最下面 , 有这样一条:
User-agent: *Disallow: /这表示除上面那些定义过的爬虫以外其他爬虫都不允许爬取百度任何东西!
2.法律
我们都知道在发起请求时User-agent是可以自定义的 , 也就是说我们可以绕过robots协议和以User-agent来定义的反爬虫技术 , 所以robots协议可能更像一个君子协议 , 那咱们国家有没有法律明文规定呢?我们来了解一下非法侵入计算机信息系统罪:
第二百八十五条 非法侵入计算机信息系统罪:违反国家规定 , 侵入前款规定以外的计算机信息系统或者采用其他技术手段 , 获取该计算机信息系统中存储、处理或者传输的数据 , 或者对该计算机信息系统实施非法控制 , 情节严重的 , 处三年以下有期徒刑或者拘役 , 并处或者单处罚金;情节特别严重的 , 处三年以上七年以下有期徒刑 , 并处罚金 。
我们可以看到重点信息:入侵计算机获取数据是违法的 , 也就是说爬虫技术本身是无罪的 , 因为它是获取的公开信息 , 并未非法入侵计算机 。但是如果你用爬取到的数据去从事商业化操作 , 那也许就构成了违法犯罪行为!
给大家介绍下因爬虫而被判刑的案件:
  1. 头条爬虫官司:https://dwz.cn/qBBHc2fq
  2. 酷米客公司官司:https://dwz.cn/9IpAOHGB
  3. 360和百度爬虫官司:https://dwz.cn/RGRa3HJc
我发现这几起案件的通性有两点:1、公司性质 。2、竞争对手 。3、让人家找到线索 。
最后提醒大家:技术人 , 要守住自己的底线 , 违反国家法律法规的事情咱们坚决不能做!
3.反爬虫工程师
本来想采访一位携程反爬虫工程师 , 但是他说由于工作保密原因不便接受采访 , 所以只好尊重他的选择!


推荐阅读