科技小数据|0基础小白必知的10种机器学习算法( 二 )


这篇文章中列出的前10个算法是在考虑机器学习初学者的情况下选择的 。 它们是我在孟买大学计算机工程学士学位期间从“数据仓库和挖掘”(DWM)课程中学到的主要算法 。 我加入了最后两种算法(集成方法) , 尤其是因为它们经常被用来赢得Kaggle比赛 。
没有更多的基础知识 , 面向初学者的十大机器学习算法:
1.线性回归
在机器学习中 , 我们有一组输入变量(x)用于确定输出变量(y) 。 输入变量和输出变量之间存在关系 。 ML的目标是量化这种关系 。
图1:线性回归以y = a + bx的形式表示为一条线
在线性回归中 , 输入变量(x)和输出变量(y)之间的关系表示为y = a + bx形式的方程 。 因此 , 线性回归的目标是找出系数a和b的值 。 在此 , a是截距 , b是直线的斜率 。
图1显示了数据集的绘制的x和y值 。 目标是拟合最接近大多数点的线 。 这将减少数据点的y值与线之间的距离(“错误”) 。
2. Logistic回归
线性回归预测是连续值(即 , 以厘米为单位的降雨) , 逻辑回归预测是在应用转换函数后的离散值(即 , 学生是否通过/未通过) 。
Logistic回归最适合于二进制分类:y = 0或1的数据集 , 其中1表示默认类 。 例如 , 在预测事件是否会发生时 , 只有两种可能性:事件发生(我们将其表示为1)或事件不发生(0) 。 因此 , 如果我们要预测患者是否生病 , 我们将使用1数据集中的值标记患病的患者 。
逻辑回归以其使用的转换函数命名 , 该函数称为逻辑函数h(x)= 1 /(1 + ex) 。 这形成了S形曲线 。
在逻辑回归中 , 输出采用默认类别的概率形式(与线性回归不同 , 线性回归是直接产生输出的) 。 由于这是一个概率 , 因此输出在0-1的范围内 。 因此 , 例如 , 如果我们要预测患者是否生病 , 我们已经知道生病的患者表示为1 , 因此 , 如果我们的算法将0.98的得分分配给患者 , 则认为该患者很有可能生病了 。
使用逻辑函数h(x)= 1 /(1 + e ^ -x)通过对x值进行对数转换来生成此输出(y值) 。 然后应用阈值以强制将此概率转换为二进制分类 。

科技小数据|0基础小白必知的10种机器学习算法
本文插图

图2:逻辑回归确定肿瘤是恶性还是良性 。 如果概率h(x)> = 0.5 , 则分类为恶性
在图2中 , 要确定肿瘤是否为恶性 , 默认变量为y = 1(肿瘤=恶性) 。 x变量可以是肿瘤的量度 , 例如肿瘤的大小 。 如图所示 , 逻辑函数将数据集各种实例的x值转换为0到1的范围 。 如果概率超过阈值0.5(由水平线显示) , 则肿瘤为归类为恶性 。
逻辑回归方程P(x)= e ^(b0 + b1x)/(1 + e(b0 + b1x))可以转换为ln(p(x)/ 1-p(x))= b0 + b1x 。
Logistic回归的目标是使用训练数据来找到系数b0和b1的值 , 以使预测结果与实际结果之间的误差最小 。 使用最大似然估计技术估计这些系数 。
3.购物车
分类和回归树(CART)是决策树的一种实现 。
分类树和回归树的非终端节点是根节点和内部节点 。 终端节点是叶节点 。 每个非终端节点代表一个输入变量(x)和该变量的分割点;叶节点表示输出变量(y) 。 该模型按以下方式进行预测:遍历树的拆分以到达叶节点并输出在叶节点处存在的值 。
下面图3中的决策树根据一个人的年龄和婚姻状况 , 对其是否购买跑车或小型货车进行了分类 。 如果此人已超过30岁且未结婚 , 我们将按照以下步骤进行操作:“超过30年?” ->是->“已婚?” ->不行 因此 , 模型输出一辆跑车 。

科技小数据|0基础小白必知的10种机器学习算法
本文插图

图3:决策树的各个部分
4.朴素贝叶斯
为了计算一个事件已经发生的可能性 , 我们使用贝叶斯定理 。 在给定我们的先验知识(d)的情况下 , 要计算假设(h)为真的概率 , 我们使用贝叶斯定理 , 如下所示:


推荐阅读