十大机器学习算法数据科学家最常用的新手必知 _机器学习

本文列出了数据科学家使用的十大机器学习算法，并且介绍了这十大算法的特点，供各位机器学习的新人们更好地理解和应用。
在机器学习领域，有种说法叫做“世上没有免费的午餐”，简而言之，它是指没有任何一种算法能在每个问题上都能有最好的效果，这个理论在监督学习方面体现得尤为重要。
举个例子来说，你不能说神经网络永远比决策树好，反之亦然。模型运行被许多因素左右，例如数据集的大小和结构。
因此，你应该根据你的问题尝试许多不同的算法，同时使用数据测试集来评估性能并选出最优项。
当然，你尝试的算法必须和你的问题相切合，其中的门道便是机器学习的主要任务。打个比方，如果你想打扫房子，你可能会用到吸尘器、扫帚或者拖把，但你肯定不会拿把铲子开始挖坑吧。
对于渴望了解机器学习基础知识的机器学习新人来说，这儿有份数据科学家使用的十大机器学习算法，为你介绍这十大算法的特性，便于大家更好地理解和应用，快来看看吧。
1-线性回归
线性回归可能是统计学和机器学习中最知名和最易理解的算法之一。
由于预测建模主要关注最小化模型的误差，或者以可解释性为代价来做出最准确的预测。我们会从许多不同领域借用、重用和盗用算法，其中涉及一些统计学知识。
线性回归用一个等式表示，通过找到输入变量的特定权重（B），来描述输入变量（x）与输出变量（y）之间的线性关系。

文章插图

Linear Regression
举例：y = B0 + B1 * x
给定输入x，我们将预测y，线性回归学习算法的目标是找到系数B0和B1的值。
可以使用不同的技术从数据中学习线性回归模型，例如用于普通最小二乘和梯度下降优化的线性代数解。
线性回归已经存在了200多年，并且已经进行了广泛的研究。如果可能的话，使用这种技术时的一些经验法则是去除非常相似（相关）的变量并从数据中移除噪声。这是一种快速简单的技术和良好的第一种算法。
2-逻辑回归
逻辑回归是机器学习从统计领域借鉴的另一种技术。这是二分类问题的专用方法（两个类值的问题）。
逻辑回归与线性回归类似，这是因为两者的目标都是找出每个输入变量的权重值。与线性回归不同的是，输出的预测值得使用称为逻辑函数的非线性函数进行变换。
逻辑函数看起来像一个大S，并能将任何值转换为0到1的范围内。这很有用，因为我们可以将相应规则应用于逻辑函数的输出上，把值分类为0和1（例如，如果IF小于0.5，那么输出1）并预测类别值。

文章插图

Logistic Regression
由于模型的特有学习方式，通过逻辑回归所做的预测也可以用于计算属于类0或类1的概率。这对于需要给出许多基本原理的问题十分有用。
与线性回归一样，当你移除与输出变量无关的属性以及彼此非常相似（相关）的属性时，逻辑回归确实会更好。这是一个快速学习和有效处理二元分类问题的模型。
3-线性判别分析
传统的逻辑回归仅限于二分类问题。如果你有两个以上的类，那么线性判别分析算法（Linear Discriminant Analysis，简称LDA）是首选的线性分类技术。
LDA的表示非常简单。它由你的数据的统计属性组成，根据每个类别进行计算。对于单个输入变量，这包括：
1.每类的平均值。
2.跨所有类别计算的方差。

文章插图

Linear Discriminant Analysis
LDA通过计算每个类的判别值并对具有最大值的类进行预测来进行。该技术假定数据具有高斯分布（钟形曲线），因此最好先手动从数据中移除异常值。这是分类预测建模问题中的一种简单而强大的方法。
4-分类和回归树
决策树是机器学习的一种重要算法。
决策树模型可用二叉树表示。对，就是来自算法和数据结构的二叉树，没什么特别。每个节点代表单个输入变量（x）和该变量上的左右孩子（假定变量是数字）。