在爬取链家等房地产网站, 小区页码到了100页后就重复以前的小区数据,怎样破 ?

我简单看了一下,应该是对方程序只做了最大100页的限定。你可以尝试分行政区查询,我试了下前三个区,加起来就超过100页了,应该可行。
■网友
链家应该是做了限制了。以前爬闲鱼的时候,遇到过,分价格区间进行了爬取,结果全部能获取。范围再大一点儿,价格区间筛选就显得不那么给力了,然后安行政区划分,再加上价格区间,基本没问题。对于链家,建议按照分类,可以分的仔细点儿,然后爬下来数据可能有重复,记得去重。


    推荐阅读