评级|从实验室到落地,汽车销售线索评级AI实战( 二 )
TalkingData数据智能市场提供了丰富的标签选择 , 基于业务调研结果 , 我们重点选择了金融应用、消费偏好、应用偏好、常出现城市等等数据维度 。 对于工程师来讲 , 需要重点了解接口方式、数据更新频率等信息 。 同时 , 本次建模的特征会纳入该汽车品牌的一方数据 , 重点在于数据传输、存储的安全设计和实施 。
文章图片
03
特征工程
特征工程听起来是一个纯技术过程 , 常规来看 , 需要经过特征清洗、预处理(如归一化、离散化、降维、特征选择、衍生特征)、特征有效性分析等等涉及数据工程师、数据科学家的诸多专业性工作 。
但笔者更强调的是 ,在进行以上工作之前 , 客户和业务分析人员的介入非常必要 。 例如针对企业一方数据 , 需要在企业的配合下 , 花费大量时间理解每一个业务字段的业务内涵、发生时间、更新时间、数据由系统产生还是人工产生、甚至是否做过系统改造导致某个时间节点前后的数据字段含义不同等等 。 唯有如此 , 我们才能有把握在做特征工程时 , 如何取舍、如何加工数据 , 以及未来更明确的做出模型特征解释 。
项目进行中出过一个小插曲 , 某个特征对模型的影响很大 , 但这是一个“温度计”类型的数据 , 即线索进店之后 , 这个数据才会发生相应的变化 。 机器学习领域常常说“garbage in, garbage out” , 如果输入的数据和特征质量不高 , 那输出的结果也会差强人意;数据和特征决定了机器学习的上限 , 而模型和算法只是逼近这个上限而已 。 从工作时间分配来看 , 也证明了特征工程的重要性:数据科学家和数据工程师往往会花费80%的时间精力做特征工程 , 20%的时间精力做模型开发 。 在这个项目中 , 我们进一步的证明 , 在80%的特征工程中 , 需要至少20%的业务数据理解和数据分析 , 这是决定特征工程的方向和质量的关键因素 。
特征工程除了对特征本身的加工处理 , 还有非常重要的一项工作——正负样本定义(模型y值) 。 虽然业务定义很简单:线索是否进店 , 进店为y=1 , 不进店为y=0 。 但就实际情况来看 , 基于何种条件才能判定y是否等于1也花费了不少精力 , 原因在于该汽车品牌的一方数据并没有直接的字段帮助判断 , 深层原因在于经销商并未按照标准流程进行数据录入和系统操作 。 这就需要业务人员和品牌方共同分析和判断进店数据的方案 , 并反复验证 。
04
模型训练、诊断与调优
4.1 好的数据+合适的算法=好的效果
笔者基于多个AI项目经验 , 也合作过不少数据科学家 , 会发现不同的数据科学家使用的算法、模型解释指标、乃至编程语言也是不尽相同 。 这其实是机器学习高速发展带来的结果 。 因此 , 不必拘泥于一定要使用某个“高级”算法模型 , 关键是要看“疗效” , 即模型的性能 。
4.2 模型评估指标
提到模型性能 , 就一定离不开各种模型性能度量指标了 , 比如查全率、查准率、AUC等等 。在看这些指标前 , 我们要先理解它们的含义 , 而不是一味纠结在指标数据高低上 。 比如查全率和查准率天然具有“对立性” , 要求查全率高 , 意味着“宁可错杀一千不可放过一个”;要求查准率高 , 则意味着“宁缺毋滥” 。 因此仍需要基于业务目标来制定合适的模型评估指标 。
就本项目而言 , AUC(Area Under The Curve)是一个更合适的指标 。 对比准确率、召回率、F1等指标 , AUC有一个独特的优势 , 就是不关注具体得分 , 只关注排序结果 , 这使得它特别适用于排序问题的效果评估 。 比如AUC=0.7 , 其含义可以大概理解为:给定一个正样本和一个负样本 , 在70%的情况下 , 模型对正样本的打分高于对负样本的打分 。
文章图片
但AUC越高越好吗?我们知道 , 建模时会将样本分为三个子集:训练集、验证集、测试集 , 因此也会有三个对应的AUC结果 。 单纯只看训练集或验证集的AUC并不可靠 。 当训练集的AUC过高时 , 往往并不值得高兴 , 因为很可能发生了过拟合的情况(模型对训练集的学习效果太好了 , 但在测试集上表现一般) , 即模型并不真正具备对未来的预测能力 。 可优化的方向包括:算法、调参、正负样本划分等 , 还有一些bug是需要项目团队充分的沟通讨论才能进一步发现的 。
本次项目中 , 实验室模型阶段测试集AUC达到0.73 。 如下图所示 , 理论上 , 当经销商优先外呼0.3分以上的线索时 , 外呼70%的线索量即可涵盖近90%的进店客户 。
文章图片
文章图片
05
自动化工程部署
本次项目要求达到线索实时下发、实时预测效果 。 数据自动化流程方案最终确定分为离线流程与实时流程 , 其中的模型训练是离线流程、模型预测是实时流程 。 基于该汽车品牌和TalkingData项目组建立双重预警机制 , 保障数据和模型的日常运转 。
推荐阅读
- 56年前的NASA航天器将坠落地球 不会构成威胁
- 7%|国际评级机构上调今年中国经济增长预期 预计明年将增7%
- 隆福医院|北京市隆福医院挂牌成为国家重点研发计划临床实验室
- 航天器|56年前的NASA航天器将坠落地球 不会构成威胁(图)
- IT|大众的抉择:落地Robotaxi 看好中国自动驾驶
- 同比|百度Apollo或将在广州同时落地Robotaxi、Robobus ;中国电影上半年净利亏损5.02亿元;微信内测“群
- 福建:抓实检察官员额退出机制 推动司法责任制落地见效
- 马克龙|法国单日新增确诊病例重破七千 马克龙视察制药实验室
- 实践|北京王府学校“科学技术实践创新实验室”项目启动
- 紧凑型SUV|3款适合女生开的小型SUV,15万能落地,本田、吉利都有