怎样爬到我想要的所有网页

同小白来帮忙一下,提供一下方向,希望能帮上忙。1.爬虫方面的资料的“爬虫”话题下非常多。此外《HTTP权威指南》一书的第九章有对于爬虫原理的详细描述。爬虫(计算机网络) - 话题精华HTTP权威指南 (豆瓣)2. 你说的网页URL的格式统一,那么你需要正则表达式。正则表达式30分钟入门教程3. python写爬虫最方便,当然java也可以写,任何语言都可以写,只是难度不一样。4. 如果不想学或者觉得很难学,火车采集器、八爪鱼采集器、集搜客等爬虫软件可以试试看,百度(对,百度)可以搜到很多。
■网友
import urllib2for i in range(1,100): urlstr=\u0026#39;重庆大学民主湖论坛\u0026#39;+urlshort; request = urllib2.Request(urlstr) request.add_header(\u0026#39;User-Agent\u0026#39;, \u0026#39;fake-client\u0026#39;) response = urllib2.urlopen(request) myPage =response.read() print myPage第一,其他语言也行,估计python算很简单的。你说的这些比较好实现。代码有问题需要修改。


    推荐阅读