|利用历史数据做商业预测的全过程( 三 )


本文插图

|利用历史数据做商业预测的全过程
本文插图

导入后 , 点击界面右上方的“Scoring”
|利用历史数据做商业预测的全过程
本文插图

按钮进行预测 , 完成即可得下面的界面 , 最左侧的一列就是预测结果 , 在本例中百分数表示客户违约的概率 , 概率越大的客户违约的风险越高 。 我们可以按超过预测的违约概率超过某个阈值就认为高风险客户(具体用什么阈值 , 要根据业务经验来定 , 缺乏经验时也可以先简单粗暴地用 50% 来算) 。
|利用历史数据做商业预测的全过程
本文插图

这个结果还可以导出成 csv , xls 等多种格式的结果文件 。
到这一步 , 我们的预测就完成了 , 整个过程可以说是非常简单 。
4. 模型表现
前面说了 , 预测不可能 100% 准确 , 但总得有个准确度吧 , 我们怎么知道呢?
在第 2 步模型建好以后 , 点击“Model Performance”按钮
|利用历史数据做商业预测的全过程
本文插图

, 可以看到关于这个模型的一些信息 , 称为模型表现 , 如下图 。
|利用历史数据做商业预测的全过程
本文插图

我们通常看这个叫 AUC 的指标 , 取值范围为(0.5-1) , 原则上越大越好 , 表示这个模型越准确 。 比如这个模型的 AUC 是 0.89 , 算是不错的模型 , 用这个模型去做预测的可信度是很好的 。 不过 , 这个 0.89 并不是指准确度是 89%(具体的预测准确度和前面说的那个阈值有关 , 在确定阈值之前是没法算出来的) , AUC 的具体含义比较复杂 , 感兴趣的同学可以去参考数据挖掘的书籍( 这有一个浅显易懂的免费电子书http://www.raqsoft.com/html/course-data-mining.html ) 。
如果 AUC 很高 , 接近于 1 , 是不是说明这个模型特别好?也不一定 , 这可能会发生所谓的“过拟合”现象 。 这时 , 虽然 AUC 指标非常好 , 但真正拿来预测时可能准确率反而会非常差 。 至于为什么发生过滤以及如何识别和避免它 , 也可以参考上述的书籍 。
总结:
最后我们再来总结下使用历史数据做商业预测的流程:

  1. 将历史数据和待预测的数据都整理成宽表 , 历史数据中必须要有目标变量 , 待预测数据则没有 。
  2. 将历史数据导入 YModel , 建立模型 , 生成.pcf 后缀的模型文件
  3. 打开 pcf 模型文件 , 导入待预测数据 , 完成预测 , 生成结果 , 然后就可以根据预测出来的结果(比如违约概率)去决定商业行动了 。


推荐阅读