分布式爬虫学习路径是怎么样的

用爬虫框架scrapy,分布式的话使用scrapy+scrapy-redis+redis+scrapyd+scrapyd-api可以做到,scrapy-redis是一个重写了scrapy的调度模块、队列、管道的包,redis数据库是用来在分布式中做请求队列共享,scrapyd是用来部署scrapy的,scrapyd-api用来启动获取数据;这个几个官方文档Scrapy入门教程Scrapy 1.2 documentationScrapy-RedisScrapyd — Scrapyd 0.18 documentationAPI — Scrapyd 0.18 documentation
■网友
题主现在怎么样啦 应该是老鸟了吧 晚辈也需要用到分布式爬虫 可否给点建议

■网友
你需要定义一套xpath截取页面的系统,我在git上写了一个 fengchao,仅供参考,python你自己实现
■网友
【分布式爬虫学习路径是怎么样的】 使用pyspider爬虫框架,每个任务只要设定好url跟匹配规则(pass:可以使用自带的pyquery或者你自己下载的第三方库比如 beautifulsoup )就可以了,输出可以选择到数据库或者json。而且pyspider还有web界面,很容易观测。话说就是资料比较少好像。。。


    推荐阅读