中国统计网|1」，Python实战：信用评分模型开发「Part( 二 ) 信用风险计量体系包括主体评级模型和债

缺失值处理的方法，包括如下几种：
直接删除含有缺失值的样本
根据样本之间的相似性填补缺失值
根据变量之间的相关关系填补缺失值
变量MonthlyIncome缺失率比较大，所以我们根据变量之间的相关关系填补缺失值，我们采用随机森林法：
NumberOfDependents变量缺失值比较少，直接删除，对总体模型不会造成太大影响。对缺失值处理完之后，删除重复项。
2.异常值处理
缺失值处理完毕后，我们还需要进行异常值处理。异常值是指明显偏离大多数抽样数据的数值。
比如个人客户的年龄为0时，通常认为该值为异常值。找出样本总体中的异常值，通常采用离群值检测的方法。
首先，我们发现变量age中存在0 ，显然是异常值，直接剔除：
对于以下三个变量：
NumberOfTime30-59DaysPastDueNotWorse
NumberOfTimes90DaysLate
NumberOfTime60-89DaysPastDueNotWorse
这三个变量，由下面的箱线图可以看出，均存在异常值，且由unique函数可以得知均存在96、98两个异常值，因此予以剔除。同时会发现剔除其中一个变量的96、98值，其他变量的96、98两个值也会相应被剔除。

文章图片
箱形图
剔除变量这三个变量的异常值：
NumberOfTime30-59DaysPastDueNotWorse ，
NumberOfTimes90DaysLate ，
NumberOfTime60-89DaysPastDueNotWorse
另外，数据集中好客户为0 ，违约客户为1 ，考虑到正常的理解，能正常履约并支付利息的客户为1 ，所以我们将其取反。
3.数据切分
为了验证模型的拟合效果，我们需要对数据集进行切分，分成训练集和测试集。
4
探索性分析
在建立模型之前，我们一般会对现有的数据进行探索性数据分析（ExploratoryDataAnalysis）。
EDA是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索。常用的探索性数据分析方法有：直方图、散点图和箱线图等。

文章图片
客户年龄分布如上图所示，可以看到年龄变量大致呈正态分布，符合统计分析的假设。

文章图片
客户年收入分布如上图所示，月收入也大致呈正态分布，符合统计分析的需要。
5
变量选择
特征变量选择(排序)对于数据分析、机器学习从业者来说非常重要。好的特征选择能够提升模型的性能，更能帮助我们理解数据的特点、底层结构，这对进一步改善模型、算法都有着重要作用。在本文中，我们采用信用评分模型的变量选择方法，通过WOE分析方法，即是通过比较指标分箱和对应分箱的违约概率来确定指标是否符合经济意义。首先我们对变量进行离散化（分箱）处理。
1.分箱处理
变量分箱（binning）是对连续变量离散化（discretization）的一种称呼。
信用评分卡开发中一般有常用的等距分段、等深分段、最优分段。
等距分段(Equvallengthintervals)：分段的区间是一致的，比如年龄以十年作为一个分段；
等深分段(Equalfrequencyintervals)：先确定分段数量，然后令每个分段中数据数量大致相等；
最优分段(OptimalBinning):又叫监督离散化(superviseddiscretizaion) ，使用递归划分(RecursivePartitioning)将连续变量分为分段，背后是一种基于条件推断查找较佳分组的算法。
我们首先选择对连续变量进行最优分段，在连续变量的分布不满足最优分段的要求时，再考虑对连续变量进行等距分段。最优分箱的代码如下：

中国统计网|1」，Python实战：信用评分模型开发「Part( 二 )

推荐阅读

仰望幸福|就没有伤害！与人交往，必须处理好不同阶层之间的关系，没有对比

加菲猫说时尚|李思思张蕾站后排，央视主持大合影！董卿尼格买提穿情侣装站C位

激光祛斑恢复要多久如何护理

恒大预计首发，郑智身边依然会是保利尼奥，吴曦携手两大外援

老崔说历史|隔壁小妾墓却无人问津，专家打开后恍然大悟，丈夫墓被盗一空

冯幼娱乐|印度医生恒河有蛆不要喝！印度教众你找死！学医救不了印度人

|仿古风格设计的农村别墅，第一栋适合做民宿，很有特色

“钱塘江同志”，又立功了！

新生儿泪腺什么时候通

windows系统|Win10大版本更新策略变了变成一年一更

新华财经|新华指数|29日中国稀土价格指数微幅上涨

故友说游戏|艾琳成S1玩家绝版记忆，他回炉重做从此销声匿迹，王者没人见过的4个英雄

唐逗逗不搞笑|想试试是什么，便飞快上了树，幽默笑话：一只猴子拣到一张电话卡

|VAR判定进球有效，一场1

塑料分选四大难点逐一击破！直播演示新款AUTOSORT分选效果

落水洞与普洱茶,落水洞易武之落水洞

全国消费扶贫月：农产品流通过程中的税收优惠政策了解一下

跳高的鱼|真的重新认识黄龄，带着爸妈一起穿洛丽塔风格的妩媚奼女！

考试▲提醒考生和家长：高考家长送考、陪考这些细节一定要注意

央视|新冠疫苗何时上市？谁先打？多少钱？官方回应来了