内容推荐算法：异构行为序列建模探索

2020-12-09

杜易初（逸初）淘系技术
文章插图
很多秃头小可爱沉迷熬夜逛淘宝，以下是来自宇宙洪荒之力的最新线报：

男生比女生多
天蝎座多
夜间小裙子搜索量位居第一
......

尤其，每晚有1700万人在淘宝只逛不买，他们到底在干什么？
看完视频和下方文章，你就知道为什么上头了。
前言
来洋淘，更有young! 洋淘轻应用的内容均是手淘用户的真实购后分享，在这里，你可以个性化地浏览他人的美好生活，并鼓励自我表达与分享。

内容推荐算法：异构行为序列建模探索

文章插图
图1. 洋淘轻应用截图，左) 为双列流，右) 为详情页
在推荐任务上，同导购产品相比，洋淘场景有着自身的特性：

新用户冷启严峻，六成以上的用户无洋淘场景内的历史内容点击；
老用户内容兴趣也稀少，历史内容点击数不超过10 ，反观商品点击数却高达数倍；
用户在电商与内容两个domain的兴趣差异较大。统计日志发现，电商兴趣对洋淘场景下内容点击样本的覆盖度仅为 30%。

于是，如何把跨域的异构行为用好，提升用户的浏览深度就显得弥足珍贵。我们从召回， ctr预估两大关键环节均作了探索与创新，大幅提升了推荐效果，取得了显著的业务收益。
向量召回模型In_Match前文提到内容兴趣不够用，我们首先基于i2i尝试了商品与内容的混合协同，取得了一定的收益。然后基于电商兴趣的标题作相关内容的严格相似召回，却收益为负，这说明跨域的兴趣不可生搬硬套，也与前文的兴趣差异统计相吻合。
所以一个能胜任的召回模型，应满足以下期望：

{电商，内容}两个domain的历史行为都能用上；
交互序列是刻画用户精确意图的关键，要能对序列建模而非孤立的交互单元；
既然两个domain兴趣差异存在，就要能学到电商兴趣到内容兴趣的迁移规律。

基于以上理念，我们设计了兴趣迁移 Interest Transfer Matching Model (In_Match for short) ，取得了以下显著收益（业务指标为内部数据，此处只列ab实验的相对提升）

推荐综合指标上，人均点击提升+11.17% ， pv_ctr提升+12.16%;
大幅缓解推荐过于集中的状况， top内容的曝光占比下降25%;
该路向量召回大幅超越content-based feature对应的几路召回，甚至高于内容协同召回。

? 模型架构及主要贡献

内容推荐算法：异构行为序列建模探索

文章插图
图1-1.In_Match 的模型架构

内容推荐算法：异构行为序列建模探索

文章插图
图1-2.encoder-decoder 内部细节示例
主要贡献有：

multi modality

考虑到稀疏性，引入多模态性能提升+5%

semantic projection

填补商品/内容语义空间上的gap

基于decoder来学习[整个session]点击

学习session点击，相较next one， SDM有对比收益
decoder架构更适合序列生成任务，GPT vs. BERT
beam-search 进一步提升多样性，在 page 推荐下更友好

内容推荐算法：异构行为序列建模探索

文章插图
图1-3.（beam-search）序列预测工作图示，多样性与兴趣演化
下文会分章节阐述我们的设计思想。

推荐阅读

上一篇：IDEA中常见的git操作

下一篇：博观智能刷新规模最大的人脸检测数据集WIDER FACE纪录