虎牙|电竞直播名场面,不关弹幕能不能看清?虎牙:可( 二 )


具体而言 , 难点可以归结为为以下三点 。
难点1:稳定性、实时性保障
首先 , 直播流是实时传输的数据 ,AI智能弹幕从输入到输出就需要在30ms内处理完毕 。 同时 , 在稳定性上 , 一旦处理结果发生丢帧或前后结果不一致 , 在用户看来画面的抖动就会很明显 。
虎牙|电竞直播名场面,不关弹幕能不能看清?虎牙:可
本文插图

在如今上线的版本中 , 虎牙主要通过三点来应对这一挑战 。
模型精简:综合运用模型简化 , 压缩 , 推理优化等技术提高运行速度 , 同时确保准确性在95%以上 。
智能调度:尽可能并行 , 根据超时 , 模型计算量来分派任务 。
利用时间序列的关联性 , 通过文字 , 图像等多种信息结合来优化结果 。
难点2:Mask的准确预测
许佳还坦言 , 虽然基于虎牙在技术底层架构的扎实积累 , 技术团队在3个星期内搞定了AI智能弹幕的初版 , 但在上线之前 , 后续他们花费了更多的时间、精力在Mask预测的迭代、优化上 。
这里麻烦的点在于 , LOL的英雄有很多不同的皮肤 , 皮肤不同又会导致英雄形态完全不同 。
理论上 , 任意英雄的任意皮肤都有可能出现在比赛中 。 但从真实比赛场景中能获得的原始图像数据又是很有限的 。
因此 , 从训练数据集的角度来说 , 在构建阶段就需要充分考虑数据构造、数据均衡、数据增强等方法的设计 。
这里 ,为了提高Mask预测的准确性 , 虎牙的工程师们创新地提出了背景生成技术 ,通过虎牙之前积累的赛事数据 , 生成无英雄的背景视频 , 然后再通过背景相减的方法 , 来获得鲁棒mask分割 。在此基础上 , 再结合目标检测对英雄、大招等进行针对性处理 ,这样在准确性上带来了很大的提升 。
虎牙|电竞直播名场面,不关弹幕能不能看清?虎牙:可
本文插图

难点3:观看体验的优化
另外 , 在游戏直播中 , 游戏角色运动也有其独特之处 , 比如单帧对象大多分布零散 , 比如在快速移动的同时 , 会伴随大量光影特效 , 计算其Mask后 , Mask会产生非常快速的抖动 , 造成真实观看体验中的“眩晕感” 。
为此 , 虎牙技术团队在之前积累的光流算法SelFlow技术基础上 , 利用帧间信息 , 对mask进行平滑 ,通过前后帧融合的后处理方式 , 来平滑观看体验 。 此外 , 虎牙前端的同学 , 也在用mask将弹幕和画面融合时 , 巧妙地加入边缘羽化处理 , 也很大程度上优化了观看体验 。
涉及的细节这么多 , 想要兼顾产品呈现和用户体验 , 对于虎牙技术团队而言挑战不算小 。
好在虎牙工程师们有足够的热情 , 发起这99分到100分的挑战——他们之中有很多都是LOL死忠粉、游戏硬核玩家 。
许佳就说 , 虎牙电竞赛事直播从s6就开始做了 , 现如今解决卡顿、画质之类的“温饱问题” , 也有了很深的技术积累 , 对技术和产品团队来说 , 自然而然就想更进一步 。
虎牙的技术团队是一个愿意不断积累、不断挑战自我的团队 , 目标不仅仅是满足用户顺畅、清晰看到直播的基础需求 , 而是在此之上 , 还要给用户带来更好的观看体验 。
AI智能弹幕也正是因此诞生 , 虎牙工程师的目标是让用户在观赛的道路上“从温饱奔向小康” , 以及在将来享受到更深层次的沉浸式体验 。
虎牙|电竞直播名场面,不关弹幕能不能看清?虎牙:可
本文插图

另一方面 , 虎牙在AI底层技术方面也早有动作 。
像AI智能弹幕和AI打点实时回放 , 及其相关的游戏内容实时理解架构 , 基本技术思路都是将大任务化成小任务并行协作 , 化繁为简 。
而其基础正是虎牙团队的Leaf-AI服务 。 这是虎牙自研的Serverless服务架构 。


推荐阅读