Python爬虫快速入门，静态网页爬取( 六 ) _静态网页爬取

因此，使用IP代理并结合time.sleep()爬取豆瓣图书Top250再将其写入文件的完整代码如下：
import requestsfrom random import choicefrom bs4 import BeautifulSoup as BeSfrom time import sleep as pausedef spider(url, filename, proxies):headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.125 Safari/537.36'}re = requests.get(url, proxies=proxies, headers=headers)soup = BeS(re.text, 'html.parser')items = soup.select('div.pl2 a')with open(filename, 'a', encoding=re.encoding) as f:for item in items:f.write(item['title'] + " " + item['href'] + "n")filename = 'doubanTop250.txt'pages = []proxies_list = []for i in range(0, 250, 25):ip_1 = "http://10.10.1.1%s:3128" % str(i // 25)ip_2 = "http://10.10.1.1%s:1080" % str(i // 25)douban_book = 'https://book.douban.com/top250?start=%s' % str(i)prox = {"http": ip_1,"https": ip_2,}pages.append(douban_book)proxies_list.append(prox)for page in pages:proxies = choice(proxies_list)spider(page, filename, proxies)pause(1)12345678910111213141516171819202122232425262728293031323334353637上述代码的IP代理池中的IP代理不可用(IP地址是瞎写的)，所以代码不会成功运行，这里仅仅是为了展示一个完整的结构。

Python爬虫快速入门，静态网页爬取( 六 )

推荐阅读

北京青年报|140万张北京消费券9月8日发放

天猫天猫618启幕，1000万95后在“520告白季”“报复性表白”

【金牛座】6月3号喜事不断，福运天降，运势顺风顺水，钱财不愁的3生肖

鸡冠花泡水喝治什么病,栽种鸡冠花要注意什么

68岁洪金宝与友人聚餐 68岁洪金宝与友人聚餐身体突然暴瘦

保安|漫展“保安女”道歉后，网友爆出其生活照，真人比cos狂三好看很多

科技信息中心懂手机的人都这样选，20年购机避不开的2大刚需

ZAKER生活|并出现美国雇佣兵，如何杜绝99年悲剧重演？，塞尔维亚爆发骚乱

名片设计卡片设计

才友军事▲太平洋仅剩下一艘航母编队，世界目光转向东方，这次已不是美军

纳西姆|男子自称先知遭控渎神，巴基斯坦受审遭当庭枪杀，凶嫌：梦中人指使

胫骨筋膜炎怎么办？

如何起诉离婚(如何起诉离婚？)

"Go City 旅城"旅行景点通票微信小程序上线解锁新加坡自由行掌上旅游新姿势

电动车掌中宝电动车劲敌出现？电动车将会被取代？你怎么看？

「网文圈」原创腾讯嫡系接管阅文，网文新时代已经到来

北晚新视觉网：美国曾拒绝中国物资，我们需要热脸贴冷屁股吗？，全球疫情肆虐

想给父母做个全身检查，在北京哪个体检中心比较好点

健身励志录才能享受人生。只要用心感受，幸福就会永远存在，人有个好的心态

情暖童心关爱留守儿童的美篇?关爱留守儿童美篇分享