用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕众所周知

众所周知，弹幕，即在网络上观看视频时弹出的评论性字幕。不知道大家看视频的时候会不会点开弹幕，于我而言，弹幕是视频内容的良好补充，是一个组织良好的评论序列。通过分析弹幕，我们可以快速洞察广大观众对于视频的看法。
阿喵通过一个关于《八佰》的视频弹幕数据，绘制了如下词云图，感觉效果还是可以的。
文章插图
点击并拖拽以移动
这里多说一句，小编是一名python开发工程师，这里有我自己整理的一套最新的python系统学习教程，包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以关注小编，并在后台私信小编：“01”即可领取。
海量的弹幕数据不仅可以绘制此类词云图，还可以调用百度AI进行情感分析。那么，我们该如何获取弹幕数据呢？本文运用Python爬取B站视频、腾讯视频、芒果TV和爱奇艺视频等弹幕，让你轻松获取主流视频网站弹幕数据。
一、B站视频弹幕1.网页分析本文以爬取up主硬核的半佛仙人发布的《你知道奶茶加盟到底有多坑人吗？》视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url 。
文章插图
点击并拖拽以移动
简单分析url参数，很显然， date参数表示发送弹幕的时间，其他参数均无变化。因此，只需要改变date参数，然后通过beautifulsoup解析到弹幕数据即可。
2.爬虫实战
import requests #请求网页数据
from bs4 import BeautifulSoup #美味汤解析数据
import pandas as pd
import time
from tqdm import trange #获取爬取速度
def get_bilibili_url (start, end) :
url_list = []
date_list = [i for i in pd.date_range(start, end).strftime( '%Y-%m-%d' )]
【用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕】for date in date_list:
url = f"api.bilibili.com/x/v2/dm/his… {date} "
url_list.append(url)
return url_list
def get_bilibili_danmu (url_list) :
headers = {
"user-agent" : "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36" ,
"cookie" : "你自己的" #Headers中copy即可
}
file = open( "bilibili_danmu.txt" , 'w' )
for i in trange(len(url_list)):
url = url_list[i]
response = requests.get(url, headers=headers)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text)
data = http://kandian.youth.cn/index/soup.find_all("d" )
danmu = [data[i].text for i in range(len(data))]
for items in danmu:
file.write(items)
file.write( "\n" )
time.sleep( 3 )
file.close()
if name == "main" :
start = '9/24/2020' #设置爬取弹幕的起始日
end = '9/26/2020' #设置爬取弹幕的终止日
url_list = get_bilibili_url(start, end)
get_bilibili_danmu(url_list)
print(
"弹幕爬取完成"
)
3.数据预览
文章插图
点击并拖拽以移动
?
二、腾讯视频弹幕1.网页分析本文以爬取《脱口秀大会第3季》最后一期视频弹幕为例，首先通过以下步骤找到存放弹幕的真实url 。

用Python爬取B站、腾讯视频、爱奇艺和芒果TV视频弹幕

推荐阅读

野生石斑鱼▲野生石斑鱼

『重头在来008』坐一次只需一毛钱，印度：领先中国30年，印度“牛粪公交车”

经济日报-中国经济网|上半年11城房价过热，房地产调控超300次，下半年政策怎么走？

手机游戏|英雄联盟手游最新上线时间来了！拳头公司终于按耐不住了？

不怕恶劣天气的芯片要来了，或让自动驾驶汽车视野更广无盲点

远望3号船出征！为嫦娥五号提供测控支持

星座天天见|好运全面爆发，人生得意，事业鼎盛，注定发达致富的4星座，8月

石膏板腻子刮几遍石膏找平后多久刮腻子

国产洗面奶排行榜10强，2024公认好用的三款女士洗面奶来了！

关于人生感悟文章6篇关于人生感悟的文章

形容五台山的诗句?写五台山的诗

爆笑社|下次别带墨镜了看的我好不忍心，搞笑gif-姑娘

『清洁』河北多地开展爱国卫生城市清洁行动

大国军武|我国却始终造不出先进光刻机，技术太负责，核武器都能造

浙江卫视琉璃白天播出琉璃多少集

番薯味的红茶是低档茶,论茶信阳红茶

头发能不能扎进肉里？

「增高」抓住寒假的机会 4大秘诀让孩子“快高长大”

红茶的检验依据,普洱茶的检测

『川藏线』出现在川藏线上的各种暗语，你们都知道什么意思吗？