京东推荐系统中的兴趣拓展如何驱动业务持续增长( 二 )


从商品的维度来讲 , 第一、商品的规模是特别大的 , 我们正常看到的大部分平台的推荐系统所推荐的 Item 集合可能是几十万 , 几百万这个量级的 , 但是对于电商系统来说 , 它后台真正的侯选级都是数十亿SKU 的侯选 , 也是因为现在这个时代 , 已经进入了一个供过于求的状态 , 所以它更依赖于这些中长尾的商品 , 更依赖于推荐系统 , 去找到合适的用户 。 第二个特点 , 从电商平台角度来说 , 大量的热点是随着一些节日或者平台自己做的一些临时性的活动带来的用户 , 那么从逻辑上来说 , 这些商品其实它们的前续的用户行为一段时间内也是缺乏的 , 所有的这些点都表明:第一、兴趣拓展对于电商推荐系统来说特别重要 。 第二、它依赖于传统的协同过滤 , 依赖于用户行为的这种方式是不够的 , 所以后面我主要是介绍一些 , 我们在这方面做的一些尝试性的创新 。 我主要会介绍一些理念性的东西 , 讲得会相对粗略一些 , 每个方面介绍几个方法 , 不会讲特别复杂的推理过程 , 就是希望我们解决这个问题的一些思路对大家有些启发 。
大家能看到下图这个PPT 中的三个环节 , 左边这个图是描述传统的、我们记录下来的用户的行为 , 包括他的浏览、购买、加购等所有电商平台能够在线记录下来的行为 , 正常的推荐系统都是分为几个环节:
京东推荐系统中的兴趣拓展如何驱动业务持续增长文章插图
第一个环节是要从刚刚所说的数十亿的SKU 集合里 , 召回出来大概数千级别的侯选SKU 。 第二个环节是要对召回出来的数千级别的SKU 去做CTR , 去做点击率或者转化率的这个预估 , 就是对每一个后选的商品 , 跟用户打一个预估的CTR 的分 , 或者预估的转化率的分 。 第三个环节是拿到打完分的这一千个侯选之后 , 怎么推出来最后返回给用户看到的那几条 , 或者几十条的侯选的过程 。 那么最后 , 呈现给用户的商品包括两部部分:第一部分 , 其实已经知道它对这些商品是感兴趣的 。 第二部分是去帮他探测 , 或者说把他感兴趣的、探索过的商品推荐出来 。
几乎工业界的系统都是这种漏斗型的环节 , 我刚才讲的那三个环节都是漏斗型的 , 所以我们在每一个环节都需要去解决探索出来的商品怎么出来的这个问题 。 其实你已经识别出了用户的兴趣 , 然后基于兴趣打分 , 这个技术相对成熟的 , 但是如何去召回CTR 预估 , 以及最后的排序环节 , 如何保证我们探索出来的东西能够出去而且有一个合理的排序 , 每个环节都会有对应的一些解决方案 。 我这里主要介绍三个点的创新 , 第一个点就是基于商品知识图谱的一个召回 。 第二个环节是 CTR 预估的环节 , 第三个点是在 Rerank , 在最终的排序环节 , 怎么去做一个全局的建模 。
基于商品知识图谱的兴趣召回
京东推荐系统中的兴趣拓展如何驱动业务持续增长文章插图
下面我们来详细说明下各个环节 。 第一个环节是讲基于商品知识图谱的兴趣召回 , 就是刚刚提到的 , 我们不管是从用户纬度来说 , 还是从商品纬度来说 , 存在大量的用户行为缺失 , 商品也缺少对应的行为 。 它依赖于传统行为的这种方法 , 不管是 CF 也好 , 还是基于用户行为去训练各种向量模型 , 或者其他的各种模型化的召回方法 , 在行为缺失的时候都失效了 。
电商里有几个典型的场景 , 是商品行为特别缺失的 , 而这些场景在电商当中又特别重要:第一个就是新品的上架 , 比如小米 10 发布了 , 华为 10 或者 P40 发布了 , 或者 iPhone12 发布了 , 这些新品上来的时候 , 其实是完全没有用户行为的 , 这个时候你依赖于行为的模式去召回 , 都会面临商品本来很热 , 但是如果你依赖行为 , 它是推不出去的;第二个场景就是平台做活动 , 大家可能感知比较明显的是每年的 618、双十一 , 但是其实整个平台 , 每天都在做大大小小的活动 , 那么这种活动的商品 , 也是突然地从一个常规的销售要变成一个突然热门的销售 , 去依赖于传统的行为也是推不出来的;第三个场景一个时效的热点 , 这个热点可能不一定是平台做的活动 , 就是可能是社会上发生的某一个事件 。 这里举了一个例子是今年的疫情期间 , 其实平时有些商品它们之间是没有关联的 , 但是在疫情期间 , 比如说口罩、方便面、洗手液这些东西 , 正常的情况来看 , 它们其实不会建立关联的 , 但是因为疫情 , 它们之间建立了关联关系 。 第四个场景就是搭配购买 , 这个搭配购买大家都有买东西搭配的概念 , 大家都知道 , 买完手机之后 , 可能你要去买手机壳、手机贴膜 , 或者是你如果打游戏 , 手机可能还要配一些水冷的设备 。 那么正常来说 , 用户买完手机 , 推手机壳这是没有问题的 , 但是如果在电商场景时候 , 你推的这两个东西不是搭配的 , 比如说你推的是 P40 手机 , 你推出来是某个 iPhone 的保护壳 , 这对用户的体验伤害是很大的 。 基于这种场景来说 , 它其实大量的是依赖于除了行为之外的一些知识 , 这些知识才能去辅助帮你在这种场景下去帮用户做兴趣的拓展 , 而且要保证你拓展出来的东西是精准的 , 是满足用户需求的 。


推荐阅读