中国统计网|1」，Python实战：信用评分模型开发「Part( 三 ) 信用风险计量体系包括主体评级模型和债

针对我们将使用最优分段对于数据集中的RevolvingUtilizationOfUnsecuredLines、
age、DebtRatio和MonthlyIncome进行分类。
RevolvingUtilizationOfUnsecuredLines分箱情况

文章图片
age分箱情况
DebtRatio分箱情况
MonthlyIncome分箱情况
针对不能最优分箱的变量，分箱如下：
2.WOE
WoE分析，是对指标分箱、计算各个档位的WoE值并观察WoE值随指标变化的趋势。其中WoE的数学定义是:
woe=ln(goodattribute/badattribute)
在进行分析时，我们需要对各指标从小到大排列，并计算出相应分档的WoE值。
其中正向指标越大， WoE值越小；反向指标越大， WoE值越大。
正向指标的WoE值负斜率越大，反响指标的正斜率越大，则说明指标区分能力好。
WoE值趋近于直线，则意味指标判断能力较弱。
若正向指标和WoE正相关趋势、反向指标同WoE出现负相关趋势，则说明此指标不符合经济意义，则应当予以去除。
3.相关性分析和IV筛选
接下来，我们会用经过清洗后的数据看一下变量间的相关性。
注意:这里的相关性分析只是初步的检查，进一步检查模型的VI（证据权重）作为变量筛选的依据。相关性图我们通过Python里面的seaborn包，调用heatmap绘图函数进行绘制，实现代码如下：

文章图片
数据集各变量的相关性
由上图可以看出，各变量之间的相关性是非常小的。 NumberOfOpenCreditLinesAndLoans和NumberRealEstateLoansOrLines的相关性系数为0.43 。
接下来，我进一步计算每个变量的InfomationValue（IV）。 IV指标是一般用来确定自变量的预测能力。其公式为：
IV=sum((goodattribute-badattribute)*ln(goodattribute/badattribute))
通过IV值判断变量预测能力的标准是：
<0.02:unpredictive
0.02to0.1:weak
0.1to0.3:medium
0.3to0.5:strong
>0.5:suspicious
IV的实现放在mono_bin函数里面，代码实现如下：
输出图像：

文章图片
输出的各变量IV图
可以看出，以下几个变量：
DebtRatio
MonthlyIncome
NumberOfOpenCreditLinesAndLoans
NumberRealEstateLoansOrLines
NumberOfDependents
【中国统计网|1」，Python实战：信用评分模型开发「Part】变量的IV值明显较低，所以予以删除。

中国统计网|1」，Python实战：信用评分模型开发「Part( 三 )

推荐阅读

仰望幸福|就没有伤害！与人交往，必须处理好不同阶层之间的关系，没有对比

加菲猫说时尚|李思思张蕾站后排，央视主持大合影！董卿尼格买提穿情侣装站C位

激光祛斑恢复要多久如何护理

恒大预计首发，郑智身边依然会是保利尼奥，吴曦携手两大外援

老崔说历史|隔壁小妾墓却无人问津，专家打开后恍然大悟，丈夫墓被盗一空

冯幼娱乐|印度医生恒河有蛆不要喝！印度教众你找死！学医救不了印度人

|仿古风格设计的农村别墅，第一栋适合做民宿，很有特色

“钱塘江同志”，又立功了！

新生儿泪腺什么时候通

windows系统|Win10大版本更新策略变了变成一年一更

新华财经|新华指数|29日中国稀土价格指数微幅上涨

故友说游戏|艾琳成S1玩家绝版记忆，他回炉重做从此销声匿迹，王者没人见过的4个英雄

唐逗逗不搞笑|想试试是什么，便飞快上了树，幽默笑话：一只猴子拣到一张电话卡

|VAR判定进球有效，一场1

塑料分选四大难点逐一击破！直播演示新款AUTOSORT分选效果

落水洞与普洱茶,落水洞易武之落水洞

全国消费扶贫月：农产品流通过程中的税收优惠政策了解一下

跳高的鱼|真的重新认识黄龄，带着爸妈一起穿洛丽塔风格的妩媚奼女！

考试▲提醒考生和家长：高考家长送考、陪考这些细节一定要注意

央视|新冠疫苗何时上市？谁先打？多少钱？官方回应来了