游戏|《英雄联盟》S11直播延迟30秒!这次网友反应有点不太一样
直播延迟几十秒,网友竟然还说“真香”?!!
你没听错,这发生在英雄联盟S11这种全球赛事上,而且,延迟高达30秒 。
文章图片
要知道S11观众量可是千万级别,去年决赛最高同时观看人数就多达4595万人;
像这种顶尖赛事,保证音、画质的低延迟本就应该是各大平台的“基本操作”,哪怕一点额外的延迟都是绝对不能忍的 。
【游戏|《英雄联盟》S11直播延迟30秒!这次网友反应有点不太一样】拿前几天Dota2直播举例,延迟15分钟,网友们那可是群情激愤……
文章图片
而这回,S11直播,一个官方频道延迟高达几十秒——
这似乎是大型直播事故了吧?
但万万没想到的是,弹幕画风竟然一片“舒适”、“真香” 。
文章图片
怎摸回事?
我们顺藤摸瓜来到了这个频道,发现这是B站专门为听障人士推出的无障碍直播间:
文章图片
跟常规直播间不同的是,这个直播间是有AI实时字幕的,解说提到的队名“T1”、“poke”等黑话基本都能正确显示 。
赛后采访还有手语解说,整体会比常规直播间延迟几十秒 。
文章图片
已经有听障人士用上了
其实,像这种直播字幕背后的AI实时语音识别技术,已经有不少应用了 。包括油管的直播字幕、谷歌移动设备的视频字幕和微软PPT演讲字幕等,都属于这类技术 。
不过,像这样专门为直播留出一个无障碍直播间的平台,目前还不多 。
要真正做好一个无障碍直播间,技术上究竟比普通实时字幕特殊在哪里?
我们深入了解了一下,发现它比想象中更“难” 。
无障碍语音识别,特殊在哪里?
在理解无障碍的特殊性之前,需要先知道直播中的实时字幕是怎么来的 。
从流程上来看,实时字幕处在直播视频编码和解码中间的位置 。
实时字幕是在视频编解码过程中,对音频进行快速语音识别,再与视频一起输出的效果,整体大概是这么一个过程:
文章图片
简略版流程
可以看到,视频本身还需要经过编解码等传输流程,实时字幕制作则处在编码和解码中间的位置 。
从技术本身来看,实时字幕用的是语音识别,具体分为人工识别和自动语音识别(ASR)两种 。
此前,由于ASR准确率上不去(尤其是中文识别),人工识别又需要好几分钟延迟,大型比赛直播中采用实时AI字幕的不多 。
这些年AI技术上来了,视频中应用自动语音识别ASR制作字幕的也多了起来,具体又分为流式ASR和非流式ASR 。
非流式,指整段输入语音、再输出文字的结果;流式,指像“流水线一样”实时输出转文字结果 。
文章图片
目前的流式ASR可以做到速度极快(毫秒级,肉眼看起来是实时)的输出,经过训练也能达到不错的准确率;但与此同时,它也还有不少优化空间 。
对于不同直播来说,选择语音识别方法时,主要会从准确率和识别速度进行考量,像新闻直播更重视准确率,娱乐赛事直播更侧重识别速度 。
文章图片
BUT,对于无障碍来说,赛事直播还会出现新的挑战:
由于听障人士无法快速建立视听之间的联系,错字词需要更多反应时间,字幕的准确性要更高;此外,转录的字句需要有一定视觉流畅性;最后,赛事直播的延迟也不能太高 。
一方面,受限于语音的停顿、音频切分的长度,流式ASR目前能做到低延迟和基本的准确率,但往往视觉阅读的流畅性会有所降低,“每个字都会,停顿后就看不懂了”:
推荐阅读
- Bioware|变性人士领军《龙腾世纪》
- DOTA2|《Dota2》7.31版本更新:隆重推出全新英雄“獣” 炸弹人重做、野区更新
- 游戏|知名“受苦”游戏《艾尔登法环》获IGN满分评价:45家媒体无一给出差评
- From|《艾尔登法环》不需要乔治马丁
- 蓝光|《蜘蛛侠:英雄无归》蓝光版4月12日推出 官方玩三虫互指梗
- 英雄联盟|《英雄联盟》服务器已恢复:官方直接回退了旧版本、修复时间待定
- 主机游戏|一战封神!《艾尔登法环》多家媒体给出满分:历史第一
- 游戏|《艾尔登法环》IGN 10分:FS社最具野心的作品
- 英雄联盟|《英雄联盟》服务器已恢复:官方直接回退了新版本、修复时间待定
- 游戏|边玩游戏边赚钱、投资游戏装备?完美世界发布声明:谨防上当