抖音的奇幻漂流:为什么TikTok让用户如此着迷?( 三 )
在线训练机制完整训练过程是:· 线上服务器捕捉实时数据 , 然后储存到Kafka· Storm集群分析Kafka数据并生成特征· 特征库收集新特征和推荐便签 , 建立新的训练集· 在线训练流程重新训练模型参数 , 并将同样的参数输入模型库· 更新客户端的推荐列表 , 捕捉新的反馈(即用户行为)并再次循环
TikTok的推荐工作流TikTok从未向公众或技术界公开核心算法 。 但是 , 基于该公司公布的零碎信息以及极客们通过逆向工程技术找到的种种踪迹 , 我们可以得出以下结论 。(声明——这仅仅是作者的理解和推断 , 可能跟TikTok的做法有出入)
推荐工作流步骤0:用户原创内容 (UGC) 的双重审查系统
图源:unsplash在TikTok上 , 每天用户上传的视频有上百万 。 恶意内容更容易在单机审查系统中找到漏洞 , 在这种条件下只靠人工审查是不现实的 , 因此 , 双重审查系统就成为TikTok筛查视频内容的主要算法 。
机器审查:总的来说 , (以计算机视觉为基础的)双重审查模型能够识别视频图片和关键词 。 它主要有两个基本功能:· 检查视频片段是否违反法律法规 , 是否存在抄袭 。 如果疑似违反规定 , 模型就会拦截视频内容 , 打上红标或者黄标 , 然后转交人工审查 。· 通过从视频中截取图像或者关键帧 , TikTok的双重审查算法会将截图与海量归档内容库比对 。 重复内容会被选出 , 其流量受限 , 在推荐引擎上的权重降低 。人工审查:主要关注3个方面 , 视频标题 , 封面缩略图和视频中的关键帧 。 对于双重审查模型标记为可疑的内容 , 技术人员会进行人工审查 。 如果发现某视频违规 , 该视频会被删除 , 账户活动暂停 。步骤1:冷启动TikTok推荐机制的核心是信息流漏斗 。 视频通过双重审查之后 , 会被放入冷启动流量池中 。 比如 , 用户的新视频通过了审核流程之后 , TikTok一开始会分配200-300个活跃用户的流量 , 视频能得到上千次的浏览 。 在这一机制中 , 新人可以与(粉丝上万的)网红竞争 , 因为他们拥有同样的起点 。步骤2:以指标为基础赋予权重通过最初的流量池 , 视频能得到几千播放量 , 这些数据会被收集和分析 。 在分析中考虑的指标包括点赞数、播放量、整个视频看完的人数、评论数、关注数、转发数、分享数等等 。然后 , 推荐引擎就基于这些最初的指标 , 给视频赋予权重 , 给账户打分(无论是否是高质量创作者) 。 如果引擎决定提高内容的权重 , 权重最高的10%还会有额外10000-100000流量的曝光 。步骤3:用户画像放大器第2步中从流量池得到的反馈会被进一步分析 , 用于用户画像放大器的决策 。 在这一步中 , 表现出色的内容会得到强化 , 增加对特定用户群体的投放(比如 , 体育迷 , 时尚爱好者) 。这与“猜你喜欢”功能类似 。 推荐引擎会建立用户画像库 , 这样它就能找到内容和用户群体之间的最佳匹配了 。
步骤4:精品潮流池只有不到1%的内容最终会进入潮流池 。 这个池子中的视频得到的曝光量比其他视频高出一个量级 。 因为流行内容会无差别地推荐给所有用户 。其他步骤:延迟引爆有一些TikTok 博主会注意到 , 他们的内容突然得到了巨大的引流 , 但此前数周发布的内容都表现平平 。这主要有两个原因:· 首先 , TikTok有一个算法( “挖宝人”) , 该算法会回顾历史内容 , 寻找适合曝光的高质量内容 。 如果某用户的视频被这个算法选中 , 意味着该用户的账户上有足够多的垂直视频 , 可以得到一个新标签 。 该标签使视频内容更多出现在“挖宝人”算法中 。· 第二个原因是“潮流效应” 。 这意味着 , 如果某个视频有几百万的观看量 , TikTok会引流到该用户的主页 , 因此以前发布的内容播放量就会上升 。 对于垂直创作者(比如搞笑猫咪视频创作者)来说 , 这是常有的事 。 一个流行视频会引爆所有其他高质量的视频(人们想看更多可爱又奇怪的猫咪视频) 。
推荐阅读
- 街拍是怎么赚钱的
- 记者|沉迷抖音:9岁女孩浓妆艳抹,10岁女孩加30多个群做“生意”
- 印度禁令让中国抖音损失60亿美元,数字夸大了么?
- 这四段用光影谱写的奇幻旋律,你听过吗?
- 犯罪|六男子为拍抖音 手持1米5长大刀出没闹市区……
- 抖音平台成了骗子出没的地方
- 信念的重要性
- 抖音|官方通报“网红幼师发布亲吻男童视频”
- 现在抖音上流行一个合伙人如何分配利润的问题
- 安顺公交车司机的抖音在事发前显示心态正常