TalkingData|汽车销售线索评级AI实战,从实验室到落地( 二 )


线索评级模型基于消费者的行为数据建模 , 对每一个线索的进店概率打分 。 如果将所有线索按照模型打分的顺序排序 , 再对比线索按照时间自然下发的顺序排序 , 会发现实际进店的线索 , 其按照模型打分的排序更高 。 这意味着 , 销售顾问可以更快的接触到高价值的客户 。 一个高价值的客户会受到多方经销商的抢夺 , 当我们可以快人一步地接触并跟进 , 就抢得了先机 , 邀约到店率自然会提升 。 所以线索评级模型并不是判断跟进谁或不跟进谁 , 而是优化了优质客户投放的时间和效率 。
针对“AI模型如何自然嵌入到经销商的销售工作”的问题 , 亦是通过实地调研得到如下原则:在不改变销售顾问工作流程、习惯的前提下 , 为他们带来价值 。 该原则直接指导了后续的销售管理平台改造、模型自动化部署等工作 。
02
数据准备
数据准备是一个权重取舍的过程 。 在大数据时代 , 数据并不稀缺 。 但数据建模并不意味着数据越多越好 。 在进入特征工程之前 , 需要业务分析师、数据科学家和数据工程师的共同把关 , 在成本可控的前提下考虑选择哪些数据 , 会带来最大的模型效果收益 。
TalkingData数据智能市场提供了丰富的标签选择 , 基于业务调研结果 , 我们重点选择了金融应用、消费偏好、应用偏好、常出现城市等等数据维度 。 对于工程师来讲 , 需要重点了解接口方式、数据更新频率等信息 。 同时 , 本次建模的特征会纳入该汽车品牌的一方数据 , 重点在于数据传输、存储的安全设计和实施 。
TalkingData|汽车销售线索评级AI实战,从实验室到落地
文章图片
03
特征工程
特征工程听起来是一个纯技术过程 , 常规来看 , 需要经过特征清洗、预处理(如归一化、离散化、降维、特征选择、衍生特征)、特征有效性分析等等涉及数据工程师、数据科学家的诸多专业性工作 。
但笔者更强调的是 , 在进行以上工作之前 , 客户和业务分析人员的介入非常必要 。 例如针对企业一方数据 , 需要在企业的配合下 , 花费大量时间理解每一个业务字段的业务内涵、发生时间、更新时间、数据由系统产生还是人工产生、甚至是否做过系统改造导致某个时间节点前后的数据字段含义不同等等 。 唯有如此 , 我们才能有把握在做特征工程时 , 如何取舍、如何加工数据 , 以及未来更明确的做出模型特征解释 。
项目进行中出过一个小插曲 , 某个特征对模型的影响很大 , 但这是一个“温度计”类型的数据 , 即线索进店之后 , 这个数据才会发生相应的变化 。 机器学习领域常常说“garbagein,garbageout” , 如果输入的数据和特征质量不高 , 那输出的结果也会差强人意;数据和特征决定了机器学习的上限 , 而模型和算法只是逼近这个上限而已 。 从工作时间分配来看 , 也证明了特征工程的重要性:数据科学家和数据工程师往往会花费80%的时间精力做特征工程 , 20%的时间精力做模型开发 。 在这个项目中 , 我们进一步的证明 , 在80%的特征工程中 , 需要至少20%的业务数据理解和数据分析 , 这是决定特征工程的方向和质量的关键因素 。
特征工程除了对特征本身的加工处理 , 还有非常重要的一项工作——正负样本定义(模型y值) 。 虽然业务定义很简单:线索是否进店 , 进店为y=1 , 不进店为y=0 。 但就实际情况来看 , 基于何种条件才能判定y是否等于1也花费了不少精力 , 原因在于该汽车品牌的一方数据并没有直接的字段帮助判断 , 深层原因在于经销商并未按照标准流程进行数据录入和系统操作 。 这就需要业务人员和品牌方共同分析和判断进店数据的方案 , 并反复验证 。
04
模型训练、诊断与调优
4.1好的数据+合适的算法=好的效果
笔者基于多个AI项目经验 , 也合作过不少数据科学家 , 会发现不同的数据科学家使用的算法、模型解释指标、乃至编程语言也是不尽相同 。 这其实是机器学习高速发展带来的结果 。 因此 , 不必拘泥于一定要使用某个“高级”算法模型 , 关键是要看“疗效” , 即模型的性能 。


推荐阅读