小白也能看懂!了解推荐系统全貌,看这篇就够了( 二 )


  • 聚类分析: 例如按照用户的活跃度进行聚类,将用户分为高活跃-中活跃-低活跃三类 。
  • 加权计算: 根据用户的行为将用户的标签加权计算,得到每一个标签的分数,用于之后推荐算法的计算 。

小白也能看懂!了解推荐系统全貌,看这篇就够了

文章插图
 
四、内容画像内容画像: 例如对于文章中的新闻资讯类推荐,需要利用 NLP 的技术对文章的标题,正文等等提取关键词、找到对应的标签等 。视频除了对于分类、标题关键词的抓取外,还依赖于图片处理的技术 。因此在推荐前需要对推荐的商品或内容进行一系列的处理过程 。
环境变量: 对于推荐系统来说,环境画像也非常的重要 。例如在短视频的推荐场景中,用户在看到一条视频所处的时间、地点以及当时所浏览的前后内容、当天已浏览时间等是非常重要的变量 。
推荐内容与场景通常可以分为以下几类
小白也能看懂!了解推荐系统全貌,看这篇就够了

文章插图
 
五、算法构建5.1 推荐算法流程推荐算法其实本质上是一种信息处理逻辑,当获取了用户与内容的信息之后,按照一定的逻辑处理信息后,产生推荐结果 。热度排行榜就是最简单的一种推荐方法,它依赖的逻辑就是当一个内容被大多数用户喜欢,那大概率其他用户也会喜欢 。但是基于粗放的推荐往往会不够精确,想要挖掘用户个性化的,小众化的兴趣,需要制定复杂的规则运算逻辑,并由机器完成 。
推荐算法主要分为以下几步:
  • 召回:当用户以及内容量比较大的时候,往往先通过召回策略,将百万量级的内容先缩小到百量级 。
  • 过滤:对于内容不可重复消费的领域,例如实时性比较强的新闻等,在用户已经曝光和点击后不会再推送到用户面前 。
  • 精排:对于召回并过滤后的内容进行排序,将百量级的内容并按照顺序推送 。
  • 混排:为避免内容越推越窄,将精排后的推荐结果进行一定修改,例如控制某一类型的频次 。
  • 强规则:根据业务规则进行修改,例如在活动时将某些文章置顶 。

小白也能看懂!了解推荐系统全貌,看这篇就够了

文章插图
 
  • 例如在抖音与快手的分发中:抖音强平台基于内容质量分发,快手轻平台基于社交和兴趣分发,抖音:内容质量>关系>双向互动 。快手:内容质量 约等于 关系 > 双向互动 。抖音基于将内容从小流量开始,其中表现优质的内容将不断的进入更大的流量池中,最终进入推荐池,形成 90 天+精品召回池,最终的结果也是优质内容的热度随着时间推移逐渐累积增加,头部内容的集中度很高 。

小白也能看懂!了解推荐系统全貌,看这篇就够了

文章插图
 


推荐阅读