抖音的奇幻漂流:为什么TikTok让用户如此着迷?( 二 )

抖音的奇幻漂流:为什么TikTok让用户如此着迷?
3个主要组成部分在TikTok的原型中 , 有三个主要的构成要素:标记内容、建立用户画像和用户场景以及训练并提供推荐算法 。数据和特征首先是数据 。 推荐模型的正式描述是:利用用户原创内容满足用户的功能 。 要提供这一功能需要输入三个方面的数据 。· 内容数据——TikTok是一个有大量用户原创内容的平台 。 每种内容都有其特质 , 系统应该能够识别和区分内容 , 才能提供可靠的推荐 。· 场景数据——这一数据记录的是使用场景 , 以及不同场景下用户的喜好转变 。 比如 , 某用户在上班、旅行、通勤时分别喜欢看什么类型的视频 。· 用户数据——既包括兴趣标签、职业、年龄、性别、人口统计数据等 , 也包括以机器学习为基础的用户聚类分析得到的潜在特征 。一旦收集到了相关数据 , 模型就会从中导出四种严谨设计的特征 , 输入推荐引擎中 。· 关联特征:代表内容属性和用户标签之间的关联 , 包括关键词配对、分类标签、来源匹配、主题标签以及潜在特征(比如用户与内容发布者的距离) 。· 流行特征:以用户交互为基础 , 代表国际潮流、热门话题、搜索热词、流行主题等等 。· 用户场景特征:由场景数据而来 , 包括地理位置、时间段、事件标签等 。· 协同特征:以协同过滤技术为基础 , 平衡了狭义推荐(根据喜好推荐)和协同推荐(综合用户喜好推荐) 。 具体而言 , 该算法不只考虑某个用户的浏览历史 , 还分析类似用户群体共同的行为(点击、兴趣、关键词、主题等) 。模型会学习以上的特征 , 以此预测某个内容是否适合某用户在某种场景观看 。无法度量的对象在推荐模型中 , 点击率、浏览时间、点赞数、评论和转发都是可量化对象 。 程序员可以让模型或算法适应这些对象 , 然后做出最终预测 。抖音的奇幻漂流:为什么TikTok让用户如此着迷?
图源:unsplash然而 , 其他无法度量的对象是无法用量化指标来衡量的 。 比如 , 为了维持健康的社区环境和生态系统 , TikTok以控制暴力、诈骗、色情、浮夸内容为目标 , 将权重赋予符合事实、高质量的内容 , 比如新闻 。为了实现这一目的 , 需要在量化模型对象之外 , 建立更大的控制框架(内容审核系统) 。算法推荐对象可以转化为经典的机器学习问题 , 然后协同过滤模型、逻辑回归模型、因子分解模型、几何数据库和深度学习等算法就能解决这一问题 。行业级的推荐系统需要灵活可扩展的机器学习平台 , 这样才能建立实验流程 , 从而快速训练各种模型 , 然后把它们组合起来 , 实时提供服务(比如把LR模型和DNN模型组合 , CVM模型与CNN模型组合) 。除了主要的推荐算法 , TikTok还需要训练内容分类算法和用户画像算法 。 以下是内容分析的层级分类结构 。抖音的奇幻漂流:为什么TikTok让用户如此着迷?
层级分类树从主干往下看 , 主类别的下方是子类别 。 与其他分类模型相比 , 使用层级分类机制能好地解决数据倾斜的问题 。训练机制TikTok使用实时在线训练模式 , 这一方法占用的计算资源更少 , 能够更快地给出反馈 。 这对于流媒体和信息流产品来说是非常重要的 。用户的行为会马上被捕捉 , 然后反馈给模型 , 反映在下一个视频中(用户点击新视频时 , 下一个视频会快速根据最近的行为做出调整) 。 TikTok更有可能使用Storm集群来处理实时样本数据 , 包括点击、表演、收藏、点赞、评论和分享 。他们也会建立高性能的系统 , 比如模型参数和特征服务器(特征库和模型库) 。 特征库可以保存并提供上千万的原始特征和编辑过的vector , 模型库则会维护并提供模型以及调整过的参数 。


推荐阅读