在XGBoost和LightGBM模型中强制执行单调约束的python教程我们往往会听到有关伦理和可

文章图片
在数据科学和人工智能领域取得重大进展之后，我们往往会听到有关伦理和可解释性AI的讨论，尤其是在银行和保险等行业中。尽管有许多易于访问且具有高度预测性的算法可供使用，但是对于从事这些行业的分析师和数据科学家而言，面临着选择预测准确性还是履行其监管职责的两难选择。研究人员和行业专家正努力使机器学习模型透明化和可解释化。
使模型输出更实用的一种创新称为单调约束。
什么是单调性？
单调是一个函数或数量的变化。

文章图片
单调递增函数：如果对所有x和y ，当x≤y时，都有f(x)≤f(y) ，则该函数被称为单调递增函数（见图1）。这个函数不一定要增加，只是不能减少。
单调递减函数：如果对所有x和y ，当x≤y时，都有f(x)≥f(y) ，则该函数被称为单调递减函数（见图2）。这个函数不一定要减少，只是不能增加。
为什么要在机器学习模型中应用单调性?
现在，你一定想知道为什么我们需要一个约束模型。在现实生活中，许多场景都表现出单调关系，请看下面给出的一些例子。
信用评分越高，贷款被批准的可能性越大。保险费随着驾照年龄的增长而下降。保险费随保险金额的增加而增加。在缺乏单调约束的情况下，银行和保险公司可能会面临一种不合逻辑和不道德的决策的奇怪情况，比如信用评分较高(比如610分)的申请被拒绝，而信用评分较低(比如600分)的申请被批准。类似地，客户A为100万美元的房产支付1000美元的溢价，客户B为110万美元的房产支付990美元的溢价。在上面的例子中，我们假设所有其他因素对于两对客户都是相同的。
机器学习模型示例
我将在python中使用XGBoost向您介绍这个概念，并且本教程的底部也提供了LightGBM实现的代码。
生成样本数据
第一步，我们将根据上述两种情况模拟一些数据。
场景1：以正斜率模拟数据
importnumpyasnp%matplotlibinlineimportmatplotlib.pyplotaspltplt.style.use('seaborn-whitegrid')#Sampledatawithpositiveslopesize=100Xp=np.linspace(0,7,size)yp=Xp**2+10-(10*np.random.random(size))plt.plot(Xp,yp,'.',color='b');
文章图片
在这种情况下，两个变量x和y之间存在正相关关系，当x增加时， y也会增加，而当x减少y时也会减少，例如保险金额和保费金额。
场景2：以负斜率模拟数据
deff(Xn,a,b,c):''''''Fitfunctiony=f(x,p)withparametersp=(a,b,c).''''''returna*np.exp(-b*Xn)+c#Sampledatawithnegativeslopesize=100Xn=np.linspace(0,2,size)yi=f(Xn,a=2.5,b=1.3,c=.5)#addsomenoiseyn=yi+0.5*np.random.random(size=len(Xn))
文章图片
这种情况是两个变量之间的负相关关系，当x增加时， y减少，当x减少时， y增加，例如，驾照年龄和保费金额。
拟合无单调约束的机器学习模型
我们将在两个场景中使用缺省参数和不强制任何约束来拟合增强树模型。
#Codeforpositivescenario,usesamecodeforotherscenarioCreatingDMatriximportxgboostasxgbdtrain_positive=xgb.DMatrix(Xp.reshape(-1,1),label=yp)#Settingdefaultparametersparams_no_constraints={'booster':'gbtree','eta':0.3,'gamma':0,'max_depth':6,'min_child_weight':1,'colsample_bytree':1}#ModelFittingmodel_no_constraints_positive=xgb.train(params=params_no_constraints,dtrain=dtrain_positive)#Predictionpreds_positive=model_no_constraints_positive.predict(dtrain_positive)#Plottingobservedversuspredictionplt.plot(Xp,yp,'.',color=''b'')plt.plot(Xp,preds_positive.reshape(-1,1),color=''r'')plt.xlabel(''X'')plt.ylabel(''Non-monotonicModelFit'')您可以看到输出的可视化

文章图片
我们来分析一下输出，蓝点显示X个数据点，红线显示拟合模型。我们可以看到两个模型都表现良好，能够捕获数据的整体趋势，而且这种曲线也很自然，但是这可能会影响决策。当我们在很短的时间间隔内分析模型时，我们可以观察到与我们期望相反的趋势。例如，在上述模型中， Yb<Ya和Yn>Ym与我们的预期相反。
对模型添加单调约束
现在，我们将添加附加参数（即单调约束）对样本数据进行建模。根据XGBoost文档，它们分别为1和-1 。
params_increasing_monotone={'booster':'gbtree','eta':0.3,'gamma':0,'max_depth':6,'min_child_weight':1,'colsample_bytree':1,'monotone_constraints':1}让我们在X值上绘制预测线，以可视化我们的拟合模型。

文章图片
我们可以看到整体的趋势看起来与早期的非单调模型相似。现在，解释这些机器学习模型变得容易多了，不像以前那样有矛盾的情况。
LightGBM中单调约束的实现
您可以使用以下Python代码对数据建模并分析输出，对于其余步骤，您可以使用与上述相同的代码。
#FittingLightGBMmodelwithmonotonicconstraintsimportlightgbmaslgbmonotone_model=lgb.LGBMRegressor(min_child_samples=5,monotone_constraints=''-1'')#1forincreasingconstraintsmonotone_model.fit(X.reshape(-1,1),y)#predictedoutputfromthemodelfromthesameinputprediction=monotone_model.predict(X.reshape(-1,1))最后
【在XGBoost和LightGBM模型中强制执行单调约束的python教程】我们在这里讨论了单变量模型的单调约束，这些约束也可以应用于多个变量，并且可以使用部分依赖图来分析对单个变量的影响。有时，强制约束有助于避免过度拟合，这取决于数据之间的关系，但是当您有一个过度拟合的模型时，测试这种技术没有害处。

在XGBoost和LightGBM模型中强制执行单调约束的python教程

推荐阅读

『武磊』上港打出王炸租借武磊回归，方便国足备战世预赛，恒大的冠军悬了

iOS|vivo彻底爆发，骁龙865+8GB跌至2598元，还有HiFi音质和144Hz高刷

詹姆斯|Shams：詹姆斯支持雄鹿罢赛只因当时没有计划而离开周三的会议

如何提高心理承受能力(内心太脆弱老爱哭怎么办)

破产|深陷“破产”风波，小霸王怎么了？

加拿大必读|西雅图市长宣布将取缔“自治区”，誓言收复失地！枪击事件过后

麻小薯的流浪馆|北境守卫者，洛瑞不称王

亮剑▲《亮剑》魏和尚吃肉的时候，老版表现真实，新版让人看着反胃！

中华大胖脸|真的不需要任何“盛大的军演”，缺钱少人的塞尔维亚军队

Python解析库lxml与xpath用法总结

【学问】为什么老司机雨天跑高速这么做？新手注意，这里面大有

情感|什么样的男人桃花运会比较旺呢？

历历可数历历可数恍然在目;猜一数字?

北青网综合|白发奶奶穿汉服出街，网友：岁月从不败美人

姬姐聊情感|钟晓芹离婚：不恰当的安慰，刀刀见血，让张雨绮抓狂

铁锅|养生汤包,中式铁锅,健康零食,床品套装...5折专场! 吃货独家包邮

#上海#上海：重点国家入境者集中隔离费用自理

使用Spring Boot Admin实时监控你的系统

就要买买买：B端产物UI设计是否重要？

几十年前，中国数万军队神秘消失，几十年后真相大白，国人自豪