想自己设计一个爬虫,爬赶集的招聘或者租房信息,求思路,咋才能专门去爬招聘或者租房,而不爬别的页面呢
先看看如何手动获取信息:1. 打开赶集网首页:http://hz.ganji.com/
2. 点击导航栏上的「招聘求职」,观察一下地址栏:http://hz.ganji.com/zhaopin/
3. 随便点一个职位,比如汽车销售:http://hz.ganji.com/zpqichexiaoshou/
4. 点击第一则招聘信息:http://hz.ganji.com/zpshichangyingxiao/1413380317x.htm
爬虫也可以用同样的步骤,在第2步打开的页面里,把所有职位的三级域名全爬出来保存到数据库中。然后爬取每个职位的招聘信息保存。
■网友
垂直爬虫的代码实现比较简单,主要是两方面:1. 限定url,一般是通过正则匹配2.限定内容,比如列表页面只要抓取详细页面的url,详细页面只要抓取特定内容,一般都是用css 选择器或者xpath的库取匹配内容垂直爬虫的技术难点没有全网爬出那么多,主要要解决的是反爬的问题.针对性的做几个项目的垂直爬虫,你就慢慢形成了你自己的垂直爬虫框架,有了自己的任务管理,数据集存储,基本的数据处理器,实现了一些通用的采集器,这样有新需求的时候就比较简单了,对于垂直采集来说就是设置设置URL规则,写些解析页面的脚本代码.以上是自己写了几个垂直采集系统的经验之谈,欢迎一起探讨
■网友
分享一下赶集网的反扒策略。利益相关...赶集网反爬就一招----限速访问。单IP单线程需要保持在小于2.4次/秒的访问速度,超出了之后会弹赶集的反爬页面,传说中的【墙】。PC版:
【想自己设计一个爬虫,爬赶集的招聘或者租房信息,求思路,咋才能专门去爬招聘或者租房,而不爬别的页面呢】
3G手机版:
出现后,你必须在使用requests【以Python的requests模块为例说明】的get/post方法时加入cookie方可再次访问。 在本机从来没有访问过赶集的站点情况下,你最多不带cookie值单IP单线程访问54次左右。之后就不行了。之前不带cookie值,做延时(time.sleep(随机数))访问单IP10个线程访问可以到上万次(每个线程可以访问1000+)。所以,基于以上分析:1. 最好在你请求的时候带上cookie值,手动维护一个cookie池2. 做延时访问,最好3+秒3. 尝试使用代理IP第3点也是我正在尝试的方法。透露一下我现在的情况:爬敌七千,被墙七万!这些是9个小时的时段数据,不说全天的数据了。注意点:一定要知道哪些地方是被墙掉而没有爬的,very importan!!!赞多续更,欢迎点赞、批评、交流!作者:谷震平链接:如何应对网站反爬虫策略?如何高效地爬大量数据? - 谷震平的回答来源:著作权归作者所有,转载请联系作者获得授权。
■网友
这里有个现成可用的赶集招聘信息爬虫
推荐阅读
- 同比■同比增长7.1%!2021年的第一个节你花了多少钱?
- “他是我第一个会说普通话的老师”:一对师生折射青海山村蝶变
- 手机■遇“纠纷”自己报警被识破 男子假卖手机骗60多万
- “厉行节约反对浪费”主题设计公益活动成果发布
- 有必要重新开个C店吗
- 趣头条|雪佛兰创界,外观设计大气,你会喜欢这款车吗?
- 环球车讯网|全新大众途观,外观的设计更加时尚,更加大气,“满满”的高级感
- 趣头条|日产奇骏,整体设计不错,你会喜欢吗
- 大学再有三个月就结束了,没学到知识,参加一个软件测试培训机构好吗
- 趣头条|大众ID.3外观设计风格极具未来感,太好看了