TalkingData|汽车销售线索评级AI实战,从实验室到落地( 三 )
4.2模型评估指标
提到模型性能 , 就一定离不开各种模型性能度量指标了 , 比如查全率、查准率、AUC等等 。 在看这些指标前 , 我们要先理解它们的含义 , 而不是一味纠结在指标数据高低上 。 比如查全率和查准率天然具有“对立性” , 要求查全率高 , 意味着“宁可错杀一千不可放过一个”;要求查准率高 , 则意味着“宁缺毋滥” 。 因此仍需要基于业务目标来制定合适的模型评估指标 。
就本项目而言 , AUC(AreaUnderTheCurve)是一个更合适的指标 。 对比准确率、召回率、F1等指标 , AUC有一个独特的优势 , 就是不关注具体得分 , 只关注排序结果 , 这使得它特别适用于排序问题的效果评估 。 比如AUC=0.7 , 其含义可以大概理解为:给定一个正样本和一个负样本 , 在70%的情况下 , 模型对正样本的打分高于对负样本的打分 。
文章图片
但AUC越高越好吗?我们知道 , 建模时会将样本分为三个子集:训练集、验证集、测试集 , 因此也会有三个对应的AUC结果 。 单纯只看训练集或验证集的AUC并不可靠 。 当训练集的AUC过高时 , 往往并不值得高兴 , 因为很可能发生了过拟合的情况(模型对训练集的学习效果太好了 , 但在测试集上表现一般) , 即模型并不真正具备对未来的预测能力 。 可优化的方向包括:算法、调参、正负样本划分等 , 还有一些bug是需要项目团队充分的沟通讨论才能进一步发现的 。
本次项目中 , 实验室模型阶段测试集AUC达到0.73 。 如下图所示 , 理论上 , 当经销商优先外呼0.3分以上的线索时 , 外呼70%的线索量即可涵盖近90%的进店客户 。
文章图片
文章图片
05
自动化工程部署
本次项目要求达到线索实时下发、实时预测效果 。 数据自动化流程方案最终确定分为离线流程与实时流程 , 其中的模型训练是离线流程、模型预测是实时流程 。 基于该汽车品牌和TalkingData项目组建立双重预警机制 , 保障数据和模型的日常运转 。
自动化部署工作并不是独立于其他工作环节的 , 在特征工程、建模阶段就需要考虑对自动化部署工作的影响 。 一个复杂而精巧的模型固然可爱 , 但如果超出了自动化部署的能力范围 , 反而无法真正落地 , 更谈不上对业务价值的提升 。
另外 , 这里分享自动化部署工作中一个细节 , 来说明业务思路需要贯穿始终 , 才能保障项目最终能够达成目标 。 例如 , 模型retrain的频率应该如何设定:每天、每周还是每月?这个问题还是应该回归到业务目标本身:预测线索在30天内进店的可能性 。 那么自然的 , 模型retrain的周期也应该是设定为按月了 。
06
效果验证
需要验证的效果并非仅仅指模型本身的预测性能 , 而是经过销售顾问/邀约专员等等一线人员实践过的最终效果 , 即:线索评级模型是否真正提升了线索进店转化 。
这需要多方的共同努力 , 包括:预测性能良好的模型;性能稳健的自动化工程部署;经销商各级领导和一线员工的积极配合;正确理解和应用模型结果数据;验证期的数据回收和分析 。 此外还需要确定合适的benchmark:同比(全国、大区或城市的其他经销商) , 还是环比(和历史数据有可比性吗)?以及宏观市场影响因素、经销商销售政策……等等 。
笔者认为 , 最终的效果验证是最具挑战性的地方 。 大量的信息采集、数据处理后 , 如何抽丝剥茧般的梳理出真相——模型到底贡献了多少进店转化?而想要弄清楚这一步 , 就必须站在前期扎实的工作基础之上 , 包括业务理解、数据准备、特征工程、模型开发、自动化部署等 , 并结合分析经销商的模型实践应用情况以及市场动态 。
推荐阅读
- 自主汽车网|汽车销售员说出三个时间段,买车什么时候最便宜
- 车家号|汽车销售肯定以为你是老手!,买车时做这4件事
- 车娱爱好者娟子|电商时代!“网络直播”为什么能给汽车销售带来新动力?
- 『昂克赛拉』“全款买车”的人是“高手”?汽车销售:最厌烦这类人!
- 阿虎汽车|到4S店老板,他经历了什么?,从汽车销售员
- 青橙汽车疫情致营利创4年来新低,本田2020财报|汽车销售业务下滑
- 历史每日揭秘信誉好的汽车销售会卖得更好吗?看武陵红光
- 明星大小事力帆·勒图连续六年蝉联国内汽车销售冠军
- 古度汽车谈一季度国内进口汽车销售下滑34.3%