学习python爬虫有啥关于分析html页面和请求过程的书和工具推荐

爬虫的思路是这样的1、先拿到完整的pagesource,这个包括ajax生成的网页源代码。2、从pagesource抽取需要采集的信息,可以用 a、正则 b、lxml c、beautifulsoup d、selenium 中的方法 .............等等资料看文档即可。学会搜索google。


    推荐阅读