源码用python一天爬取20万条企业信息 _python

爬虫环境Python3.7+pycharm

文章插图

最近发现一个网站，首商网，上面企业信息百万以上，然而网站一点儿反爬机制都没有，这对我们喜欢爬虫的来讲岂不是太爽了，直接拿出撸一套代码，用了三次并发，每次用20条线程，爬了五六个小时，拿下了20万条数据，美滋滋！
【源码用python一天爬取20万条企业信息】还是老规矩，下面直接上代码，所有的注释以及解释都在代码中，可以直接运行：
for k in range(1, 1651, 50):
# -*- coding: utf-8 -*-
# 本项目是原始的异步爬虫，没有封装为函数
import asyncio
import aiohttp
import time
from bs4 import BeautifulSoup
import csv
import requests
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED
# 先用并发获取每个页面的子链接
########################################################################################################################
pro = 'zhaoshuang:LINA5201314@ 14.215.44.251:28803'
proxies = {'http://': 'http://' + pro,
'httpS://': 'https://' + pro
}
# 加入请求头
headers = {'User-Agent': 'Mozilla/5.0 (windows NT 10.0; WOW64) AppleWebKit'
'/537.36 (Khtml, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
wzs = []
def parser(url):
print(url)
try:
response = requests.get(url, headers=headers)
soup1 = BeautifulSoup(response.text, "lxml")
# body > div.list_contain > div.left > div.list_li > ul > li:nth-child(1) > table > tbody > tr > td:nth-child(3) > div.title > a
wz = soup1.select('div.title')
for i in wz:
wzs.append(i.contents[0].get("href"))
time.sleep(1)
except:
print('公司正在审核中')
urls = ['http://www.sooshong.com/c-3p{}'.format(num) for num in range(k, k + 50)]
# 利用并发加速爬取，最大线程为50个，本文章中一共有50个网站，可以加入50个线程
# 建立一个加速器对象，线程数每个网站都不同，太大网站接受不了会造成数据损失
executor = ThreadPoolExecutor(max_workers=10)
# submit()的参数：第一个为函数，之后为该函数的传入参数，允许有多个
future_tasks = [executor.submit(parser, url) for url in urls]
# 等待所有的线程完成，才进入后续的执行
wait(future_tasks, return_when=ALL_COMPLETED)
print('子页链接抓取完毕！')
########################################################################################################################
# 使用并发法爬取详细页链接
# 定义函数获取每个网页需要爬取的内容
wzs1 = []
def parser(url):
# 利用正则表达式解析网页
try:
res = requests.get(url, headers=headers)
# 对响应体进行解析
soup = BeautifulSoup(res.text, "lxml")
# 找到页面子链接，进入子页面，对子页面进行抓取
# 用select函数抽取需要的内容，单击需要的内容》检查》copy select
lianjie = soup.select('#main > div.main > div.intro > div.intros > div.text > p > a')
lianjie = lianjie[0].get('href')
wzs1.append(lianjie)
print(lianjie)
except:
print('子页解析失败')
# 利用并发加速爬取，最大线程为50个，本文章中一共有50个网站，可以加入50个线程
# 建立一个加速器对象，线程数每个网站都不同，太大网站接受不了会造成数据损失
executor = ThreadPoolExecutor(max_workers=10)
# submit()的参数：第一个为函数，之后为该函数的传入参数，允许有多个
future_tasks = [executor.submit(parser, url) for url in wzs]
# 等待所有的线程完成，才进入后续的执行
wait(future_tasks, return_when=ALL_COMPLETED)
print('详细页链接获取完毕！')
"""
# 使用异步法抓取子页面的链接
########################################################################################################################
async def get_html(sess, ur):
try:
proxy_auth = aiohttp.BasicAuth('zhaoshuang', 'LINA5201314')
html = await sess.get(ur,
headers=headers) # , proxy='http://'+'14.116.200.33:28803', proxy_auth=proxy_auth)
r = await html.text()
return r
except:
print("error")
# f = requests.get('http://211775.sooshong.com', headers=headers)
wzs1 = []
# 解析网页
async def parser(respo):
# 利用正则表达式解析网页

源码用python一天爬取20万条企业信息

推荐阅读

拾物记|武则天为何对狄仁杰如此器重甚至在他去世之后哀叹朝堂空矣

「玛加迪镇」通讯：“中国维和官兵为我们圆梦”——记中国赴黎巴

虞书欣安崎向岳云鹏认错|虞书欣安崎向岳云鹏认错怎么回事？两人有什么纠葛

翡翠|棉不是瑕疵吗？为什么高冰种雪花棉，能够卖上这么昂贵的价格

小爱说游戏我把他一个月工资扣了，Uzi极限开团Godv：他要不是俱乐部老板

生肖|11月中下旬多有机遇降临，贵人提拔点拨，人生与众不同的3生肖

起跑线|汪涵6岁儿子上8个兴趣班被逼到崩溃：鸡娃的隐患，将在10年后爆发

脸部穴位图及作用?用什么怎么能把脸化装的白白的粉嫩的啊？？？谁能详细点教教我??谢谢!!?

IT那些事儿苹果不再赠送充电器和耳机一切向利润看齐的野心

「润涵谈娱乐」为给纪晓岚“降火”，乾隆皇帝赐给纪晓岚两个宫女

诗文全世界|新时代生活离不开汽车

爱云资讯 5.0版本又在云栖大会亮相了，真香！斑马智行4.0刚上车

雨晖游戏迷|降服金鱼精时，观音为何不梳妆就来了，你看看她念的咒语是什么，原创

可爱的贵生|雨过天晴，彩虹出现，4大星座爱情重逢，再度相爱，未来一周

「懒懒的叉子」这样做难道就不怕挨打吗？，搞笑GIF趣图开心一刻：小哥很皮啊

轮滑|60岁大爷玩轮滑和未牵绳的狗相撞，如何划分责任引争议

港股挖掘机|| 康德莱医械(01501)涨超5% 中期纯利同比增长42.58%至6739.3万，港股异动

孩子|郑州暴雨众人游泳破窗救下三人救援过程惊心动魄网友点赞

斑马网|再遭泄露噩梦！网上惊现《最后生还者2》多人模式视频

【食材】家庭烧烤 | 食材简单！比烧烤摊好吃百倍

源码 用python一天爬取20万条企业信息

推荐阅读

源码用python一天爬取20万条企业信息