机器学习十大算法

本文介绍了 10 大常用机器学习算法,包括线性回归、Logistic 回归、线性判别分析、朴素贝叶斯、KNN、随机森林等 。
1. 线性回归在统计学和机器学习领域,线性回归可能是最广为人知也最易理解的算法之一 。
预测建模主要关注的是在牺牲可解释性的情况下,尽可能最小化模型误差或做出最准确的预测 。我们将借鉴、重用来自许多其它领域的算法(包括统计学)来实现这些目标 。
线性回归模型被表示为一个方程式,它为输入变量找到特定的权重(即系数 B),进而描述一条最佳拟合了输入变量(x)和输出变量(y)之间关系的直线 。
 
机器学习十大算法

文章插图
线性回归
例如:y = B0 + B1 * x
我们将在给定输入值 x 的条件下预测 y,线性回归学习算法的目的是找到系数 B0 和 B1 的值 。
我们可以使用不同的技术来从数据中学习线性回归模型,例如普通最小二乘法的线性代数解和梯度下降优化 。
线性回归大约有 200 多年的历史,并已被广泛地研究 。在使用此类技术时,有一些很好的经验规则:我们可以删除非常类似(相关)的变量,并尽可能移除数据中的噪声 。线性回归是一种运算速度很快的简单技术,也是一种适合初学者尝试的经典算法 。
2. Logistic 回归Logistic 回归是机器学习从统计学领域借鉴过来的另一种技术 。它是二分类问题的首选方法 。
像线性回归一样,Logistic 回归的目的也是找到每个输入变量的权重系数值 。但不同的是,Logistic 回归的输出预测结果是通过一个叫作「logistic 函数」的非线性函数变换而来的 。
logistic 函数的形状看起来像一个大的「S」,它会把任何值转换至 0-1 的区间内 。这十分有用,因为我们可以把一个规则应用于 logistic 函数的输出,从而得到 0-1 区间内的捕捉值(例如,将阈值设置为 0.5,则如果函数值小于 0.5,则输出值为 1),并预测类别的值 。
 
机器学习十大算法

文章插图
Logistic 回归
由于模型的学习方式,Logistic 回归的预测结果也可以用作给定数据实例属于类 0 或类 1 的概率 。这对于需要为预测结果提供更多理论依据的问题非常有用 。
与线性回归类似,当删除与输出变量无关以及彼此之间非常相似(相关)的属性后,Logistic 回归的效果更好 。该模型学习速度快,对二分类问题十分有效 。
3. 线性判别分析Logistic 回归是一种传统的分类算法,它的使用场景仅限于二分类问题 。如果你有两个以上的类,那么线性判别分析算法(LDA)是首选的线性分类技术 。
LDA 的表示方法非常直接 。它包含为每个类计算的数据统计属性 。对于单个输入变量而言,这些属性包括:
  • 每个类的均值 。
  • 所有类的方差 。

机器学习十大算法

文章插图
线性判别分析
预测结果是通过计算每个类的判别值、并将类别预测为判别值最大的类而得出的 。该技术假设数据符合高斯分布(钟形曲线),因此最好预先从数据中删除异常值 。LDA 是一种简单而有效的分类预测建模方法 。
4. 分类和回归树决策树是一类重要的机器学习预测建模算法 。
决策树可以被表示为一棵二叉树 。这种二叉树与算法设计和数据结构中的二叉树是一样的,没有什么特别 。每个节点都代表一个输入变量(x)和一个基于该变量的分叉点(假设该变量是数值型的) 。
 
机器学习十大算法

文章插图
决策树
决策树的叶子结点包含一个用于做出预测的输出变量(y) 。预测结果是通过在树的各个分叉路径上游走,直到到达一个叶子结点并输出该叶子结点的类别值而得出 。
决策树的学习速度很快,做出预测的速度也很快 。它们在大量问题中往往都很准确,而且不需要为数据做任何特殊的预处理准备 。
5. 朴素贝叶斯朴素贝叶斯是一种简单而强大的预测建模算法 。
该模型由两类可直接从训练数据中计算出来的概率组成:1)数据属于每一类的概率;2)给定每个 x 值,数据从属于每个类的条件概率 。一旦这两个概率被计算出来,就可以使用贝叶斯定理,用概率模型对新数据进行预测 。当你的数据是实值的时候,通常假设数据符合高斯分布(钟形曲线),这样你就可以很容易地估计这些概率 。


推荐阅读