在爬取链家等房地产网站, 小区页码到了100页后就重复以前的小区数据,怎样破 ?
我简单看了一下,应该是对方程序只做了最大100页的限定。你可以尝试分行政区查询,我试了下前三个区,加起来就超过100页了,应该可行。
■网友
链家应该是做了限制了。以前爬闲鱼的时候,遇到过,分价格区间进行了爬取,结果全部能获取。范围再大一点儿,价格区间筛选就显得不那么给力了,然后安行政区划分,再加上价格区间,基本没问题。对于链家,建议按照分类,可以分的仔细点儿,然后爬下来数据可能有重复,记得去重。
推荐阅读
- 税务局|
- 邮储银行|邮储银行江阴市支行成功发放首笔房地产开发贷款
- 在网站上爬取大量纯文本信息,用啥语言比较好
- |搞抬高备案价再“优惠售房”的把戏 如皋5家房地产开发商收罚单
- 咋爬取豆丁、百度文库这样的网站资源
- python 爬取b站网页的编码问题
- 怎样评价亚洲第一程序员鸟哥“惠新宸”从新浪微博去链家
- 关于python爬取天天基金历史净值数据问题 (具体请看问题说明)
- 我现在23岁,以前毕业后做了一年的房地产建材销售,现在想转行做互联网业务,我该从啥职位开始申请
- 县级市的房地产网站前景怎样