联系人建模困难,缺乏行为数据?了解一下联系人倒排表特征吧
编辑导语:建模 , 是为了理解事物而对事物做出的一种抽象 , 是对事物的一种无歧义的书面描述 。 建模是研究系统的重要手段和前提 , 凡是用模型描述系统的因果关系或相互关系的过程都属于建模 。 如果在建模的过程中发现缺乏行为数据 , 你该怎么办?针对这个问题 , 本文作者为我们分析了联系人倒排表 。
本文插图
一、联系人倒排表特征简介
1. 使用背景
在构建用户风控评分卡时 , 工程师们经常为特征数量和数据维度所困 。 特别是实时评分卡 , 因为实时申请用户往往缺乏行为数据而使得模型构建困难 。
在大集群数据计算时 , 使用图数据效率又不是很高 。 因此 , 倒排表成了一个可以高效率挖掘用户关系特征的重要方向 , 倒排表特征是新申请用户关联到老平台用户的特征 。
2. 倒排表特征简介
倒排表区别于正向表 , 和传统的倒排索引区别于正向索引有类似之处 。
例如:关系人电话倒排表也是通过在正向关系表的用户-联系人电话维度表(图一) , 导出逆向的倒排的联系人电话-用户的维度(图二) 。 但倒排表和倒排索引不同的地方在于 , 电话与电话之间和用户与用户之间不存在先后关系 。
本文插图
图一:用户-联系人电话的正向表
本文插图
图二:联系人电话-用户的倒排表
倒排表特征区别于常规特征 , 倒排表特征的主键往往不是用户身 。
例如:常规特征如表1所示 , 主键是用户本身 , 常规特征也是属于用户本身的 。 但是 , 倒排表特征的主键却不是用户本身 。 从根本上说 , 这个倒排表特征是属于对应的主键的 , 联系人倒排表特征的主键则是联系人电话 , 如表2所示 。
表一:常规特征表
表二:联系人倒排特征表
倒排表特征的使用是通过用户的某项用户数据 , 关联成用户本身的特征 。
例如:本文要介绍的联系人倒排表特征是 , 先拿到这个用户拥有的电话号 , 然后再去联系人倒排表中查找这个电话号的倒排表统计特征 。 除了联系人电话这个主键外 , 还可以使用地址或设备信息作为主键 。 在本文中主要介绍以联系人电话为主键的倒排表特征 。
3. 倒排表特征的结构
要制作倒排表特征总共需要准备与制作4张表 。 分别是:倒排关系表 , 用户特征表 , 倒排用户特征表和倒排特征最终表 。
它们的关系如图三所示:
本文插图
图三:倒排表特征制作结构
首先 , 倒排关系表和用户特征表合成成倒排用户特征表;然后 , 使用倒排用户特征表计算出倒排特征最终表;最后 , 用过倒排特征最终表关联用户数据得出倒排表特征 。
我会在下文中分别介绍这4张表的作用和制作方法 。
二、联系人倒排表特征的制作
1. 联系人倒排关系表
倒排关系表是由原始关系数据生成的一张关系表 。
例如:联系人倒排关系表是一张联系人电话和现有用户的关系表 , 表中的联系人电话和用户关系是通过通讯录数据或者电商下单购买数据等提取出的;例如:在电商下单数据中 , 每一条数据都有收货人电话和下单用户的用户id 。
如果 , 用户1给电话a和电话b下过单 , 记:
共两条数据 。
如果 , 用户2给电话b和电话c下过单 , 则记下:
共两条数据 。
因此 , 关系人倒排表会如表3中记录所示 , 共4条数据 。 表中 , 主键是电话 , 每行数据对应一个电话和下单用户的关系 。
推荐阅读
- 游小妤|裴擒虎李小龙皮肤官宣,反被玩家质疑,用心做特效,用脚做建模
- 搞趣网|王者荣耀裴擒虎李小龙皮肤特效力压白虎志,但人脸建模却被嫌弃!
- 指法芳芬李小白|技能特效甩金龙,第二种形态化身神兽!,裴擒虎李小龙建模首爆
- “上车”公募基金“挑花眼” 民生银行治愈“选基困难症”
- 新华网|河北保定:近10万农村困难群众圆“安居梦”
- 周琦|新疆赛季首亮相满意吗?青年军赢得太艰难 4主力离队周琦困难重重
- 指法芳芬李小白|变身金麒麟形态后,玩家:这建模是认真的吗?,李小龙技能特效曝光
- 王者荣耀|李小龙皮肤特效全面展示,麒麟形态帅炸,建模让人一言难尽!
- 王者荣耀|裴擒虎李小龙建模首爆,技能特效甩金龙,第二种形态化身神兽!
- 王者荣耀|李小龙技能特效曝光,变身金麒麟形态后,玩家:这建模是认真的吗?