|利用历史数据做商业预测的全过程( 三 )
本文插图
本文插图
导入后 , 点击界面右上方的“Scoring”
本文插图
按钮进行预测 , 完成即可得下面的界面 , 最左侧的一列就是预测结果 , 在本例中百分数表示客户违约的概率 , 概率越大的客户违约的风险越高 。 我们可以按超过预测的违约概率超过某个阈值就认为高风险客户(具体用什么阈值 , 要根据业务经验来定 , 缺乏经验时也可以先简单粗暴地用 50% 来算) 。
本文插图
这个结果还可以导出成 csv , xls 等多种格式的结果文件 。
到这一步 , 我们的预测就完成了 , 整个过程可以说是非常简单 。
4. 模型表现
前面说了 , 预测不可能 100% 准确 , 但总得有个准确度吧 , 我们怎么知道呢?
在第 2 步模型建好以后 , 点击“Model Performance”按钮
本文插图
, 可以看到关于这个模型的一些信息 , 称为模型表现 , 如下图 。
本文插图
我们通常看这个叫 AUC 的指标 , 取值范围为(0.5-1) , 原则上越大越好 , 表示这个模型越准确 。 比如这个模型的 AUC 是 0.89 , 算是不错的模型 , 用这个模型去做预测的可信度是很好的 。 不过 , 这个 0.89 并不是指准确度是 89%(具体的预测准确度和前面说的那个阈值有关 , 在确定阈值之前是没法算出来的) , AUC 的具体含义比较复杂 , 感兴趣的同学可以去参考数据挖掘的书籍( 这有一个浅显易懂的免费电子书http://www.raqsoft.com/html/course-data-mining.html ) 。
如果 AUC 很高 , 接近于 1 , 是不是说明这个模型特别好?也不一定 , 这可能会发生所谓的“过拟合”现象 。 这时 , 虽然 AUC 指标非常好 , 但真正拿来预测时可能准确率反而会非常差 。 至于为什么发生过滤以及如何识别和避免它 , 也可以参考上述的书籍 。
总结:
最后我们再来总结下使用历史数据做商业预测的流程:
- 将历史数据和待预测的数据都整理成宽表 , 历史数据中必须要有目标变量 , 待预测数据则没有 。
- 将历史数据导入 YModel , 建立模型 , 生成.pcf 后缀的模型文件
- 打开 pcf 模型文件 , 导入待预测数据 , 完成预测 , 生成结果 , 然后就可以根据预测出来的结果(比如违约概率)去决定商业行动了 。
推荐阅读
- 中年|近年来,中国快递发货量快速增长,塑料快递包装99%不能有效利用
- 聚韬品牌策划公司|如何准备一个好的商业计划书,10分钟打动投资人?
- “龙”飞船|美国“龙”飞船首次执行常规商业载人航天任务
- 宇航员|SpaceX首次正式商业载人发射升空 搭载4名宇航员
- NASA|SpaceX首次正式商业载人发射升空 美国“太空班车”正式启航
- 价值投资之王|欧普康视:商业和投资圣经都指向这个公司
- 田泽湘谈商业|4982亿!这届“双11”背后,隐藏着2021年新消费趋势
- 阿爆|小微商户异常冻结了怎么办 微信商业版关闭提现怎么解封
- 跨境电商头等舱|亚马逊的商业理念
- 运营商财经网|古城换新装——中国移动北京公司打造首都首条5G+特色商业街区