|利用历史数据做商业预测的全过程( 三 )

本文插图

本文插图

导入后，点击界面右上方的“Scoring”

本文插图

按钮进行预测，完成即可得下面的界面，最左侧的一列就是预测结果，在本例中百分数表示客户违约的概率，概率越大的客户违约的风险越高。我们可以按超过预测的违约概率超过某个阈值就认为高风险客户（具体用什么阈值，要根据业务经验来定，缺乏经验时也可以先简单粗暴地用 50% 来算）。

本文插图

这个结果还可以导出成 csv ， xls 等多种格式的结果文件。
到这一步，我们的预测就完成了，整个过程可以说是非常简单。
4. 模型表现
前面说了，预测不可能 100% 准确，但总得有个准确度吧，我们怎么知道呢？
在第 2 步模型建好以后，点击“Model Performance”按钮

本文插图

，可以看到关于这个模型的一些信息，称为模型表现，如下图。

本文插图

我们通常看这个叫 AUC 的指标，取值范围为（0.5-1），原则上越大越好，表示这个模型越准确。比如这个模型的 AUC 是 0.89 ，算是不错的模型，用这个模型去做预测的可信度是很好的。不过，这个 0.89 并不是指准确度是 89%（具体的预测准确度和前面说的那个阈值有关，在确定阈值之前是没法算出来的）， AUC 的具体含义比较复杂，感兴趣的同学可以去参考数据挖掘的书籍（这有一个浅显易懂的免费电子书http://www.raqsoft.com/html/course-data-mining.html ）。
如果 AUC 很高，接近于 1 ，是不是说明这个模型特别好？也不一定，这可能会发生所谓的“过拟合”现象。这时，虽然 AUC 指标非常好，但真正拿来预测时可能准确率反而会非常差。至于为什么发生过滤以及如何识别和避免它，也可以参考上述的书籍。
总结：
最后我们再来总结下使用历史数据做商业预测的流程：