科技小数据|0基础小白必知的10种机器学习算法( 四 )


每个分量都是原始变量的线性组合 , 并且彼此正交 。 分量之间的正交性指示这些分量之间的相关性为零 。
第一个主成分捕获数据中最大可变性的方向 。 第二个主成分捕获数据中的剩余方差 , 但具有与第一个成分不相关的变量 。 同样 , 所有连续的主成分(PC3 , PC4等)捕获剩余的差异 , 同时与前一个成分不相关 。

科技小数据|0基础小白必知的10种机器学习算法
本文插图

图7:将3个原始变量(基因)简化为2个新变量 , 称为主成分(PC)
集合学习技巧:
汇总是指通过投票获取平均值 , 将多个学习者(分类器)的结果组合在一起 , 以提高结果 。 在分类期间使用投票 , 在回归期间使用平均 。 这个想法是全体学习者的表现要好于单个学习者 。
共有3种组合算法:装袋 , 增强和堆叠 。 我们不会在这里讨论“堆叠” , 但是如果您想对其进行详细的说明 , 那么这是Kaggle的可靠介绍 。
9.随机森林套袋
套袋的第一步是使用Bootstrap Sampling方法创建的数据集创建多个模型 。 在Bootstrap抽样中 , 每个生成的训练集都由来自原始数据集的随机子样本组成 。
这些训练集的每一个都具有与原始数据集相同的大小 , 但是有些记录会重复多次 , 而有些记录根本不会出现 。 然后 , 将整个原始数据集用作测试集 。 因此 , 如果原始数据集的大小为N , 则每个生成的训练集的大小也为N , 唯一记录的数量约为(2N / 3);测试集的大小也为N 。
套袋的第二步是在不同的生成的训练集上使用相同的算法来创建多个模型 。
这是随机森林进入的地方 。 与决策树不同 , 在决策树中 , 每个节点都在最大特征上进行分割 , 以最大程度地减少错误 , 在随机森林中 , 我们选择特征的随机选择以构建最佳分裂 。 随机性的原因是:即使套袋 , 当决策树选择最佳分割特征时 , 它们最终也会具有相似的结构和相关的预测 。 但是 , 对特征的随机子集进行分割后的装袋意味着子树的预测之间的相关性较小 。
在每个分割点要搜索的特征数量被指定为“随机森林”算法的参数 。
因此 , 在使用“随机森林”进行装袋时 , 每棵树都是使用记录的随机样本构建的 , 而每个拆分都是使用随机变量的预测变量构建的 。
10.使用AdaBoost提升
Adaboost代表自适应增强 。 套袋是一个并行的集合 , 因为每个模型都是独立构建的 。 另一方面 , boosting是一个顺序集合 , 其中每个模型都是基于纠正先前模型的错误分类而构建的 。
套袋主要涉及“简单投票” , 其中每个分类器投票以获得最终结果 , 该结果由大多数并行模型确定;增强涉及“加权投票” , 其中每个分类器投票以获得由多数决定的最终结果 , 但是顺序模型是通过为先前模型的错误分类实例分配更大的权重来构建的 。

科技小数据|0基础小白必知的10种机器学习算法
本文插图

图8:决策树的Adaboost
在图8中 , 步骤1、2、3涉及一个称为决策树的弱学习者(一个仅基于1个输入要素的值进行预测的1层决策树;其根立即连接到其叶子的决策树)。
构造弱学习者的过程一直持续到构造了用户定义数量的弱学习者或直到训练期间没有进一步的改进为止 。 0基础小白必知的10种机器学习算法步骤4合并了先前模型的3个决策树桩(因此在决策树中具有3个拆分规则) 。
首先 , 从一个决策树桩开始 , 对一个输入变量进行决策 。
【科技小数据|0基础小白必知的10种机器学习算法】数据点的大小表明 , 我们已应用相等的权重将其分类为圆形或三角形 。 决策树桩已在上半部分生成一条水平线以对这些点进行分类 。 我们可以看到有两个圆被错误地预测为三角形 。 因此 , 我们将为这两个圈子分配更高的权重 , 并应用另一个决策树桩 。


推荐阅读