Python-获取B站UP主的所有视频-七朵组合为例 _Python

前几天，我分享了一篇文章，里面讲的是用户GUI下载包含B站在内的视频的Python程序。今天我们以国内第一支主打中国风的女子组合--七朵组合为例，利用之前的分享的知识，下载UP主的所有B站视频。

文章插图
一代七朵-咏春
先看下七朵组合的百度百科（这个时候已经更新为最新的五位成员了）：

七朵组合，中国内地女子演唱组合，由喻筱博、颜灵兰、韦欢、吴圆圆、刘木子五位成员组成。2012年6月28日，推出组合首支单曲《咏春》，从而正式出道 [1] ；10月23日，演唱的歌曲《心慌慌》获得“鹏城歌飞扬”深圳原创音乐第三季度十佳金曲奖 [2] ；12月9日，凭借单曲《咏春》获得香港TVB8金曲榜年度最佳新人奖以及年度最佳组合奖提名 [3]。2013年5月17日，发布中国风单曲《玉生烟》；11月13日，推出“欢”季恋歌单曲《宫商角徵羽》 [4]。2014年2月14日，发布情人节单曲《蝴蝶恋》 [5] ；4月16日，获得音悦台V-Chart Awards颁奖典礼“最具人气潜力奖”的提名 [6]。2017年，发布了中国风单曲《青蛇》。2018年1月21日，发布中国风单曲《将军令》 [7] ；10月22日，参加“古画会唱歌”音乐创新大赛，单曲《墨染梅霜》以第一名的成绩进入决赛圈 [8]。2019年1月11日，发行中国风单曲《女侠》 [9]。

文章插图
回归七朵-青蛇
在我的印象里，第一次认识七朵组合，是在2014年安徽卫视的春节联欢晚会上，七朵组合在舞台上像7只美丽的百灵鸟，表演着她们的中国风歌曲《咏春》，她们美丽的身姿深深地吸引到了我，从那以后，她们出的每一首歌，我都听过，有喜欢的，也有不喜欢的。即使有不喜欢的，我依然要全力向大家推荐她们，因为她们太欠红了！
七朵不红，天理难容！
印象比较深刻的歌曲有很多：《咏春》、《落花情》、《扬州慢》、《玉生烟》、《孔明》、《青蛇》、《醉花荫》、《江南夜》等等。
最特别的，咏春的春节特别版，圆圆的两声yayiyayiyou，让人回味无穷；孔明中欢欢的最后那几句，孔明恐恐恐，也怕女儿梦，陪你喝两盅，再去对隆中，独守着空城，南阳夜也冷，寒月照三更，琵琶惹古筝，你独守着，准我为你折腰，也是点睛之笔。
最近还新出了一首《哪吒》，也是非常好听！！！赶紧去听吧！！！
好啦，回归正题：
思路：
【Python-获取B站UP主的所有视频-七朵组合为例】（1）获取UP主所有视频的id，结合播放页面https://www.bilibili.com/video/av65732818，可以看出，id即为av后面的数字，即只要获取到id，即可得到所有的视频播放链接；
（2）利用you-get，一个一个下载；
缺点：不能多进程下载，下载进度缓慢。
开始解析：
1、打开七朵组合的投稿页面

文章插图

按照之前分享过的方法，找到这些视频的链接在哪里！
2、鼠标右键（Chrome）--检查--F5--Network--XHR，可以看到这样一条信息

文章插图

这里面包含着我们想要的视频的id信息！
有人问，为啥你这么快就找到了呢？你怎么找的呢？
其实基本的两种方法还是有的，但是像网易云音乐那种加密的除外！
（1）Ctrl+F，搜索原页面中包含的信息；
（2）看XHR项的大小，能达到kb级别的很有可能是你需要的东西；
然后我们开始点击下一页，可以发现是这样的

文章插图

又出现了一条和上一页面类似的链接，比较发现，只有page的参数不一致，那就循环page就行啦！
好啦，分析到此结束！
代码如下：
# author：Jinbu Zhang
# 目的：爬取哔哩哔哩视频某位作者的所有视频
# 思路：1、获取该作者在B站发布的所有视频地址；2、调用you-get库下载到指定路径
import requestsimport jsonimport you_getimport osimport timeimport randomimport sysimport winregheaders = {"User-Agent":"Mozilla/5.0 (windows NT 10.0; Win64; x64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/73.0.3683.103 Safari/537.36"}def get_desktop(): key = winreg.OpenKey(winreg.HKEY_CURRENT_USER,r'SoftwareMicrosoftWindowsCurrentVersionExplorerShell Folders') return winreg.QueryValueEx(key, "Desktop")[0]save_path = get_desktop() + '\' + 'you_get'+'\'if not os.path.exists(save_path): os.mkdir(save_path)# 播放页视频下载def download_mv_bilibili(mv_id): mv_id_download = 'https://www.bilibili.com/video/av'+str(mv_id) os.system("you-get -o %s %s"%(save_path,mv_id_download))# 对得到的json数据进行解析（字典访问形式）def explain_json(json_data): mv_datas = json_data['data']['vlist'] mv_infors = [] for mv_data in mv_datas: mv_title = mv_data['title'] mv_author = mv_data['author'] # 41842701 mv_id = mv_data['aid'] mv_length = mv_data['length'] mv_description = mv_data['description'] mv_cover = mv_data['pic'] mv_play = mv_data['play'] mv_comment = mv_data['comment'] print('==' * 60) time.sleep(0.5) print('>>%s...'%mv_title) print('>>>https://www.bilibili.com/video/av%s' % mv_id) print('==' * 60) # 下载MV&视频 # download_mv_bilibili(mv_id)# 对URL进行访问，得到的数据进行解析def get_html(access_url): response = requests.get(access_url,headers=headers) html = response.text json_data = https://www.isolves.com/it/cxkf/yy/Python/2019-09-06/json.loads(html) mv_infor = explain_json(json_data)# 主函数拼凑URLdef main(): base_url = 'https://space.bilibili.com/ajax/member/getSubmitVideos?mid=43636152&pagesize=30&tid=0&page={}&keyword=&order=pubdate' for k in range(1,4): time.sleep(2) access_url = base_url.format(k) html = get_html(access_url)if __name__ == "__main__": main()