每天一个爬虫练习，爬取天气数据，适合新手 _爬虫

文章插图

每天一个爬虫练习，爬个比较简单的网站

import requestsfrom bs4 import BeautifulSoupimport pandas as pdimport timedef get_data(url):resp = requests.get(url)html = resp.content.decode('gbk')soup = BeautifulSoup(html, 'html.parser')tr_list = soup.find_all('tr')dates, conditions, tempmin, tempmax = [], [], [], []for data in tr_list[1:]:sub_data = https://www.isolves.com/it/cxkf/bk/2020-08-24/data.text.split()dates.Append(sub_data[0])conditions.append(''.join(sub_data[1:3]))tempmax.append(sub_data[3])tempmin.append(sub_data[5])_data = pd.DataFrame()_data["日期"] = dates_data['天气状况'] = conditions_data['最高气温'] = tempmax_data['最低气温'] = tempminreturn _data#data_1_month = get_data('此处为任一月份数据的网址') 使用时只需修改此处，具体示例如下print('正在抓取1月份数据')data_1_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201101.html')print('正在抓取2月份数据')data_2_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201102.html')print('正在抓取3月份数据')data_3_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201103.html')print('正在抓取4月份数据')data_4_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201104.html')print('正在抓取5月份数据')data_5_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201105.html')print('正在抓取6月份数据')data_6_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201106.html')print('正在抓取7月份数据')data_7_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201107.html')print('正在抓取8月份数据')data_8_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201108.html')print('正在抓取9月份数据')data_9_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201109.html')print('正在抓取10月份数据')data_10_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201110.html')print('正在抓取11月份数据')data_11_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201111.html')print('正在抓取12月份数据')data_12_month = get_data('http://www.tianqihoubao.com/lishi/huichang/month/201112.html')print('数据抓取成功！正在整合该年数据，请稍后......')time.sleep(3)data = pd.concat([data_1_month, data_2_month, data_3_month, data_4_month, data_5_month, data_6_month, data_7_month, data_8_month, data_9_month, data_10_month, data_11_month, data_12_month]).reset_index(drop=True)print(data)print('数据整合完毕!')#数据爬取结果会保存在此代码同一径下

示例结果：

文章插图

每天一个爬虫练习，爬取天气数据，适合新手

推荐阅读

1522年是哪个朝代 1522年是什么朝代

风雪中站岗军人站岗的战士手里紧握着

微信公众号“健康广东”|广东新增境外输入确诊5例、无症状感染者8例，均为广州报告

古今医案研读|古今医案研读：广中医教授周福生治萎缩性胃炎伴肠化三

家常老干妈豆腐，不一样的麻婆豆腐，做法超简单的下饭菜，特美味

『中金网』布局非接触经济，佳都科技发布商用智能人脸测温新品

盛夏书香|我们不能只有省省省的态度，孩子看见玩具就想买？对待金钱

花香|在家里养盆“醉酒杨妃”花姿琼花玉叶，花香醉人，比菊花还美

歌声|周深首登《流淌的歌声》，直呼被“榨干”

本田urv|8月销量最惨的十大轿车榜单，这个品牌占5款，或将退出中国市场

萌主妈咪育儿经|妈妈记得要读懂，男孩为何爱“粘”妈妈？背后的心理暗示

你可能不了解这3件事，早认识早受益乙肝知识

亲人被同事无故背地里骂咋办

高超音速|全球最快导弹亮相，15分钟直达美本土，宙斯盾都来不及反应

怎样看待教师在上课中夹带私货（泛指人生道理）的行为

真想买套小户型照着它装，既可住家又可当工作室，一人独享太爽了

北京将新增三条铛铛车夜景游线路

羽毛球从零基础到入门羽毛球训练

『搞笑大喇叭』一天在路口起步熄火了，她打开双闪下了车，笑话：表姐刚拿驾照

开一家儿童益智玩具店怎么样杭州巧天才玩具总部地址