揭秘阿里巴巴的客群画像( 二 ) _客群画像

这种用户自填方式结果准确度较高，但位置隐蔽、链路冗长、没有利益点的引导，不仅用户填写率低，而且与场景结合力不足。
为解决原表单式核身用户操作成本高的问题，阿里巴巴CBU电商平台通过用户核身组件借力算法模型对用户核身进行预测，依据置信度排序，为用户推出Top K个选项供用户点选。整体算法解决方案如下。
1. 数据源
1）用户站内行为
用户站内行为是用户需求与偏好的第一反馈基地，是算法需要着重去挖掘的数据源。相对其他偏好类画像属性来说，用户核身是一个相对稳定和长期的用户属性，因此在算法应用中，我们选取了用户最近半年的站内全域行为作为底层数据。定义半年的长时间窗口选取主要有两方面考虑：

一是目前网站商品丰富、优质，搜索与推荐算法日渐精进，用户浏览各类商品的成本较低，所以B类用户在网站上的注意力难以保持专注，用户B类/C类的需求与行为混杂，数据较脏，较长的时间窗口有利于滤除干扰，捕获用户更为长期和稳定的需求；
二是用户行为数据，特别是采购行为，相对稀疏，然而B类用户的采购行为是反映用户核身身份最为核心的特征之一，且用户采购行为又具有一定的周期性，因此长期的时间窗口能够帮助算法更加全面地认识用户。

2）用户站外上下游身份
不同于很多偏好类用户画像属性，用户核身身份能够与用户在现实中的身份产生真实的映射关系，如奶茶店店主——喜茶店主、烘焙店店主——宝岛金典店主、精品女装店店主——淘宝女装店店主等。
因此，用户站外上下游的身份映射关系，能够辅助我们进一步完善用户核身身份的预测，提高覆盖率和准确率。
3）行业知识
鉴于用户在网站上B类/C类行为混杂，噪声较多，B类用户核身偏好易受网站热门类目与商品的干扰，因此我们也引入了大量行业知识作为指导来协助完成B类用户核身身份的预测，并基于此沉淀下来一份核身偏好类目数据。
2. 算法方案
利用以上用户站内行为、站外上下游身份和行业知识的数据，算法端可以通过以下几个步骤实现用户核身身份的预测工作，预测流程如图3所示。

文章插图
▲图3 用户核身预测流程图
1）种子用户圈选
种子用户主要定义为站内已核身用户及站外上下游有映射关系的核身信息的用户。
2）行业知识指导
我们基于种子用户最近一段时间的站内行为数据，挖掘识别显著性特征，提供给运营同事，对种子用户再进行一轮划拨，把日常核心行为与行业偏好明显不符合的用户排除，优化种子用户的圈选。
3）种子商品圈选
以行业偏好类目作为门槛，筛选出种子用户在门槛下最近半年内采购过的商品作为种子商品。
4）种子商品扩展
基于团队沉淀现有商品的I2I表，利用种子商品作为trigger触发Key，对种子商品进行扩展，扩展种子商品的偏好分等于商品I2I相似分与trigger种子商品偏好分的乘积。
5）用户核身预测
对于一个用户的核身预测，我们选取其最近半年的行为数据进行建模打分。然后基于打好分的用户行为商品计算用户对每一个可能的核身身份的偏好置信度，并用以区分用户的个人采购行为和B类采购行为，降低用户的个人采购行为对预测结果的影响，加大用户的B类采购行为的权重。