Python|Python爬取2万条相亲数据！看看中国单身男女都在挑什么 excel

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

文章图片

想必昨天的七夕节，一定是有人欢喜有人忧的一天，朋友圈里的晒照惹恼了我的一个程序员朋友，在昨晚怒爬2万条相亲网站数据，做了一次相亲男女画像！
话不多说，我们今天就以某相亲网站为例子，爬取搜索页面当中所有的用户信息，包括“用户ID”、“年龄”、“城市”、“学历”、“属相”等内容，使用的工具是爬虫工具pycharm 。
首先老规矩，爬虫之前我们先分析一些目标网页的构成，我们进入网站的搜索页面，摁下F12打开开发者工具，找到网页选项，看一下网页的Request URL和请求方式、user-agent等基本信息：
请求方式是post ，说明我们不用去源代码里找标签了，所有的数据都存放在网页的json文件当中，这倒是方便很多，我们直接通过链接直接获取API文件，不需要进行网页解析，点击HTR后点击“请求”就能看到表单数据了。
很显然， “sex”就是性别， “f”是“female”的缩写， “p”代表着页码，因为搜索页面一共有10页，所以我们需要构造一下完整的请求url 。
当网页页码发生变化的时候，我们发现url当中只有p值发生了变化，因此只需要改变p值就能构造对应的URL 。
好了，网页的构成都分析好了，下一步就要开始在pycharm当中写爬虫了，通过上面的url ，我们可以获取到服务器返回的 json格式的用户信息，部分源代码如下：
爬取的过程就不详细讲解了，因为这个网站还需要进行模拟登陆，所以需要登陆后将 cookie 放入爬虫的请求头中，这样便可正确访问数据。经过爬取后的数据清洗后如下：

Python|Python爬取2万条相亲数据！看看中国单身男女都在挑什么

推荐阅读

海南三亚迎来暑期旅游旺季

华润集团|揭秘中国历史最悠久的央企——华润集团到底有多“大”？

心脏房颤老年人心脏房颤应该注意什么？

DeepTech深科技|S和X，美国法务：中国驾驶员使用不当，特斯拉中国召回近5万辆Model

蒋雯丽|马思纯50岁小姨蒋雯丽，曾5夺视后1获影后，今儿女双全惹人羡

爱买车|电动车市场彻底变天？2023年就能买到10万元的国产MINI

『中国质量万里行』警惕！新型“五步法”刷单骗局

贵嫔和贵妃,贵妃如此多娇讲的是什么

科技小辛辛在网易有道做语音算法工程师是一种怎样的体验？

生肖|未来20天，终于和对的人相遇，爱情甜如蜜的4生肖，其中有你吗？

燃气热水器哪个牌子好必看免入坑

72种猫咪品种大全图片及介绍-2｜猫咪品种知多少？

380余个网贷平台被立案侦查涉案资产价值约百亿元

三悦有了新工作|真没想到，这部小众剧能刷爆朋友圈

还记得你用的第一部手机吗？很多人都用过这个品牌，都是回忆啊

街拍|美女街拍：时尚靓丽的小姐姐，简约干练的穿搭，魅力十足

央视|警惕！你的“脸”5毛钱被卖了

当期环比增长是什么意思-环比增长和同比增速是什么意思-

[甜初影视]这几款车不妨看一看，赶超韩系合资，都说国产车“三大件”不行

海洋中最猛的3种鱼最凶猛的鱼