想自己设计一个爬虫，爬赶集的招聘或者租房信息，求思路，咋才能专门去爬招聘或者租房，而不爬别的页面呢先看看如何手

先看看如何手动获取信息：1. 打开赶集网首页：http://hz.ganji.com/2. 点击导航栏上的「招聘求职」，观察一下地址栏：http://hz.ganji.com/zhaopin/3. 随便点一个职位，比如汽车销售：http://hz.ganji.com/zpqichexiaoshou/4. 点击第一则招聘信息：http://hz.ganji.com/zpshichangyingxiao/1413380317x.htm爬虫也可以用同样的步骤，在第2步打开的页面里，把所有职位的三级域名全爬出来保存到数据库中。然后爬取每个职位的招聘信息保存。
■网友
垂直爬虫的代码实现比较简单，主要是两方面：1. 限定url，一般是通过正则匹配2.限定内容，比如列表页面只要抓取详细页面的url，详细页面只要抓取特定内容，一般都是用css 选择器或者xpath的库取匹配内容垂直爬虫的技术难点没有全网爬出那么多，主要要解决的是反爬的问题.针对性的做几个项目的垂直爬虫，你就慢慢形成了你自己的垂直爬虫框架，有了自己的任务管理，数据集存储，基本的数据处理器，实现了一些通用的采集器，这样有新需求的时候就比较简单了，对于垂直采集来说就是设置设置URL规则，写些解析页面的脚本代码.以上是自己写了几个垂直采集系统的经验之谈，欢迎一起探讨
■网友
分享一下赶集网的反扒策略。利益相关...赶集网反爬就一招----限速访问。单IP单线程需要保持在小于2.4次/秒的访问速度，超出了之后会弹赶集的反爬页面，传说中的【墙】。PC版：
【想自己设计一个爬虫，爬赶集的招聘或者租房信息，求思路，咋才能专门去爬招聘或者租房，而不爬别的页面呢】
3G手机版：

出现后，你必须在使用requests【以Python的requests模块为例说明】的get/post方法时加入cookie方可再次访问。在本机从来没有访问过赶集的站点情况下，你最多不带cookie值单IP单线程访问54次左右。之后就不行了。之前不带cookie值，做延时（time.sleep(随机数)）访问单IP10个线程访问可以到上万次（每个线程可以访问1000+）。所以，基于以上分析：1. 最好在你请求的时候带上cookie值，手动维护一个cookie池2. 做延时访问，最好3+秒3. 尝试使用代理IP第3点也是我正在尝试的方法。透露一下我现在的情况：爬敌七千，被墙七万！这些是9个小时的时段数据，不说全天的数据了。注意点：一定要知道哪些地方是被墙掉而没有爬的，very importan！！！赞多续更，欢迎点赞、批评、交流！作者：谷震平链接：如何应对网站反爬虫策略？如何高效地爬大量数据? - 谷震平的回答来源：著作权归作者所有，转载请联系作者获得授权。
■网友
这里有个现成可用的赶集招聘信息爬虫

想自己设计一个爬虫，爬赶集的招聘或者租房信息，求思路，咋才能专门去爬招聘或者租房，而不爬别的页面呢

推荐阅读

墙上画着五个风水

暖夏少年|滴滴 AI Labs 宋辉：单通道语音分离面临哪些挑战？| CCF-GAIR 2020

AC米兰|错信一人！AC米兰无奈丧失欧冠资格，留下伊布或比引进约维奇更重要

秦朝|秦始皇穿黑色龙袍，之后的帝王为什么只穿黄色？专家：他们不敢

朝廷|水浒传中的好汉藏有5条龙3条真龙，2条假龙，最终结局天壤之别！

『黄河新闻网吕梁频道』开拓进尺再创新高，中兴煤业精心组织

长沙将交通、学校、医院都往这里搬, 湖南已布下一步大棋

生肖|9月将有好运造访，源源不断的财富流入家门的4大生肖

东莞交警黄江大队|黄江交警大队进农村开展佩戴头盔示范活动

麻酱|麻酱烧饼别买了，从芝麻酱开始教你做，层层酥香，学会了三天不吃就想

龙谷丽人茶先容,遂昌龙谷丽人茶最新评估品牌价值为9

相亲的，相处过一段时间，也就一两月把，就要求上床，这正常吗

【牛奶看娱】导演手抖犯错，网友:这样的错误多来点，《向往的生活》公开致歉

阿里巴巴|王兴失算了！马云再出新“王炸”，要解救困在系统中的骑手？

彻底删除微信记录的方法有哪些？刷机靠谱吗

长期一人在家会对心理上有啥伤害?

鸡肚的营养价值及功效

「江西高安一镇党委书记」大会上“骂人”，江西高安一镇党委书记被告了

西班牙全国新冠抗体研究显示：阳性率5% 三分之一无症状

饿了么|“小企业”只有300员工，造出一台机器却卖7.7亿，垄断全球90%市场