及时行乐|原理+代码|深入浅出Python随机森林预测实战( 二 )
问:为什么在列上也要随机抽样?
答:在引入笔者最最喜欢的一个比喻之前 , 先来看一个实际的业务场景 , 来自某城市商业银行 。 我们有一大个电子表格存着大量的历史数据 , 大概50多个变量(50多列) , 变量们来自几个不同的公司如人行 , 电信等(同一个客户在不同公司) , 最后希望预测的是该客户是否会违约 。 电子表格组成如下:
表中缺失的数据段看成一个个分布随意的小湖泊 , 有数据的地方看成陆地
整个小岛地底埋藏着巨大的价值(数据价值) , 通过在随意的种树(用装袋法在行列上进行随机抽样)来吸取地底的养分 , 毕竟湖泊上种不了树 , 所以只要足够随机 , 就总能充分的利用陆地 。
问:既然每个模型给出的预测结果最后都会被加权 , 所以随机森林中每棵决策树的权重是多少?
答:随机森林中每棵决策树的权重都是一样的 , 如果这个袋子中有10棵决策树(或者其他模型) , 那每棵树给出的预测结果的权重便是1/10 , 这是随机森林的特性 。 如果权重不一样的话 , 便是后续推文会提及的Adaboost等集成学习中的提升分支了 。
问:装袋法中袋子中的模型越多越好吗?袋中用来训练每个模型的源数据比例也是越多越好吗?
答:袋子中模型多一点好 , 袋中用来训练每个模型的源数据比例小一点好 , 但这并不代表越多越好与越小越好 , 还得结合数据集特性和一些深层次的模型算法知识 。
装袋法的优势如下:
准确率明显高于组合中任何单个分类器
对于较大的噪音 , 表现不至于很差 , 并且具有鲁棒性
不容易过度拟合
随机森林算法的优点:
准确率有时可以和神经网络媳美 , 比逻辑回归高
推荐阅读
- 轻拔琴弦|Reactor如何规定,混淆保护需正确命名!看.NET代码保护工具.NET
- 产业气象站|还让我手动写个HTTP协议代码,三次握手和四次挥手说完了
- 铭成输送带专家|输送带的工作原理
- 路飞写代码|新机仍是4G,诺基亚携新机将于8月14日中国首发!明明拥有5G技术
- 米粒创意|五大代码异味:你需要提高警惕了
- 程序员|程序员遭辞退后,却被前领导命令回去讲代码,如果是你你会怎么做?
- 华为海思|最大范围源代码泄露!包括华为海思、微软、高通,危及50多家公司
- 路飞写代码|华为需支付18亿美元追补款,高通突然宣布!已与华为达成专利和解
- 华为海思|突发!华为海思源代码泄露!
- 科邦实验室|原子荧光光谱仪的构造原理