及时行乐|原理+代码｜深入浅出Python随机森林预测实战( 三 ) 前言

对错误和离群点更加鲁棒性
决策树容易过度拟合的问题会随着森林的规模而削弱
大数据情况下速度快(分布式) ，性能好
Python实战数据探索本次实战目标为演示随机森林的用法和调优方法。因为集成学习与神经网络一样，都属于解释性较差的黑盒模型，所以我们无需过分探究数据集中每个变量的具体含义，只需关注最后一个变量broadband即可，争取通过如年龄，使用时长，支付情况以及流量和通话情况等变量对宽带客户是否会续费做出一个较准确的预测。
importpandasaspdimportnumpyasnpdf=pd.read_csv('broadband.csv')#宽带客户数据df.head;df.info
df.rename(str.lower,axis='columns',inplace=True)现在查看因变量broadband分布情况，看是否存在不平衡
fromcollectionsimportCounterprint('Broadband:',Counter(df['broadband']))##Broadband:Counter({0:908,1:206})比较不平衡。 ##根据原理部分，可知随机森林是处理数据不平衡问题的利器接着拆分测试集与训练集，客户id没有用，故丢弃cust_id,
y=df['broadband']X=df.iloc[:,1:-1]fromsklearn.model_selectionimporttrain_test_splitX_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.4,random_state=12345)决策树建模我们先进行完整的决策树建模来和随机森林进行对比
importsklearn.treeastree#直接使用交叉网格搜索来优化决策树模型，边训练边优化fromsklearn.model_selectionimportGridSearchCV#网格搜索的参数：正常决策树建模中的参数-评估指标，树的深度， ##最小拆分的叶子样本数与树的深度param_grid={'criterion':['entropy','gini'],'max_depth':[2,3,4,5,6,7,8],'min_samples_split':[4,8,12,16,20,24,28]}#通常来说，十几层的树已经是比较深了clf=tree.DecisionTreeClassifier#定义一棵树clfcv=GridSearchCV(estimator=clf,param_grid=param_grid,scoring='roc_auc',cv=4)#传入模型，网格搜索的参数，评估指标， cv交叉验证的次数##这里也只是定义，还没有开始训练模型clfcv.fit(X=X_train,y=y_train)#使用模型来对测试集进行预测test_est=clfcv.predict(X_test)#模型评估importsklearn.metricsasmetricsprint("决策树准确度:")print(metrics.classification_report(y_test,test_est))#该矩阵表格其实作用不大print("决策树AUC:")fpr_test,tpr_test,th_test=metrics.roc_curve(y_test,test_est)print('AUC=%.4f'%metrics.auc(fpr_test,tpr_test))AUC大于0.5是最基本的要求，可见模型精度还是比较糟糕的，决策树的调优技巧就不再过多展开，我们将在随机森林调优部分展示
param_grid={'criterion':['entropy','gini'],'max_depth':[5,6,7,8],#深度：这里是森林中每棵决策树的深度'n_estimators':[11,13,15],#决策树个数-随机森林特有参数'max_features':[0.3,0.4,0.5],#每棵决策树使用的变量占比-随机森林特有参数（结合原理）'min_samples_split':[4,8,12,16]#叶子的最小拆分样本量}importsklearn.ensembleasensemble#ensemblelearning:集成学习rfc=ensemble.RandomForestClassifierrfc_cv=GridSearchCV(estimator=rfc,param_grid=param_grid,scoring='roc_auc',cv=4)rfc_cv.fit(X_train,y_train)#使用随机森林对测试集进行预测test_est=rfc_cv.predict(X_test)print('随机森林精确度...')print(metrics.classification_report(test_est,y_test))print('随机森林AUC...')fpr_test,tpr_test,th_test=metrics.roc_curve(test_est,y_test)#构造roc曲线print('AUC=%.4f'%metrics.auc(fpr_test,tpr_test))可以看到，模型的精度大大提升

及时行乐|原理+代码｜深入浅出Python随机森林预测实战( 三 )

推荐阅读

喵喵娜宝宝家@被爱冲昏头脑，最容易被情感左右的星座

清炖羊骨汤的做法是什么？

小炒牛肉怎样做才嫩,炒牛肉怎么做才嫩才好吃窍门-

『早餐』坚持早起为家人做早餐，这7款早餐孩子特爱吃，早餐吃得好身体棒

控股|注意！东华测试：控股股东刘士钢及一致行动人拟减持合计不超过690万股

央广网|商务部：99.1%的外资企业表示将继续在华投资经营

赌博|都杨派出所深夜出击捣毁一处赌博窝点，查处涉赌人员14名

应对高温，或存在比空调更好的选择：“冷管”(Cold Tube)

[澎湃新闻]如何变废为宝，把二氧化碳握在手中？

小王谈历史礼仪■武力不输关张，曾斩杀曹操手下顶尖猛将，三国后期的老将

中国烟花绽放悉尼夜空迎新年

产品|重庆：产品“身份证”助力高质量发展

开锅开黑了怎么回事开锅没开好黑了怎么办

姐妹|好事成三！贵州三胞胎姐妹高考成绩均过610分

好看的穿越文小说.推荐10部好看的穿越小说?

「我国」我国最难通高铁的四大省会城市排行，最难的2030年也不

我想知道杭州哪家整形医院好?

「西红柿」西红柿去皮的好办法有哪些？

海盐：人生如盐清白为本走进盐文化清廉展示馆

青龙老贼：接下来会怎么走？，一年给骑手发了410亿的美团