科技小数据|0基础小白必知的10种机器学习算法( 三 )


P(h | d)=(P(d | h)P(h))/ P(d)
哪里:
1)P(h | d)=后验概率 。 给定数据d , 假设h的概率为真 , 其中P(h | d)= P(d1 | h)P(d2 | h)….P(dn | h)P(d)
2)P(d | h)=似然 。 给定假设h为真 , 数据d的概率 。
3)P(h)=班级先验概率 。 假设h为真的概率(与数据无关)
4)P(d)=预测器先验概率 。 数据的概率(与假设无关)
该算法之所以称为“朴素” , 是因为它假设所有变量都彼此独立 , 这是在实际示例中做出的朴素假设 。

科技小数据|0基础小白必知的10种机器学习算法
本文插图

图4:使用天真贝叶斯通过变量“天气”预测“比赛”的状态
以图4为例 , 如果weather ='sunny' , 结果如何?
在给定变量天气=“晴天”的情况下 , 要确定结果游戏=“是”或“否” , 请计算P(是|晴天)和P(否|晴天) , 并以较高的概率选择结果 。
-> P(yes | sunny)=(P(sunny | yes)* P(yes))/ P(sunny)=(3/9 * 9/14)/(5/14)= 0.60
-> P(no | sunny)=(P(sunny | no)* P(no))/ P(sunny)=(2/5 * 5/14)/(5/14)= 0.40
因此 , 如果天气=“晴天” , 则结果为游戏=“是” 。
5. KNN
K最近根据算法将整个数据集用作训练集 , 而不是将数据集分为训练集和测试集 。
当新数据实例需要结果时 , KNN算法遍历整个数据集以找到新实例的k个最近实例 , 或与新记录最相似的k个实例 , 然后输出均值结果(用于回归问题)或模式(最常见的课堂)的分类问题 。 k的值是用户指定的 。
使用诸如欧几里得距离和汉明距离之类的度量来计算实例之间的相似度 。
无监督学习算法
6.先验
事务数据库中使用Apriori算法来挖掘频繁的项目集 , 然后生成关联规则 。 它广泛用于市场购物篮分析中 , 在其中可以检查数据库中经常同时出现的产品组合 。 通常 , 我们将关联规则写为“如果某人购买了商品X , 那么他购买了商品Y”为:X->Y 。
示例:如果某人购买牛奶和糖 , 那么她可能会购买咖啡粉 。 这可以用关联规则的形式写成:{牛奶 , 糖}->咖啡粉 。 超过支持和信心的阈值后 , 将生成关联规则 。

科技小数据|0基础小白必知的10种机器学习算法
本文插图

图5:关联规则X-> Y的支持度 , 置信度和提升度的公式
支持度量有助于减少频繁生成项目集时要考虑的候选项目集的数量 。 该支持措施遵循Apriori原则 。 Apriori原则指出 , 如果某个项目集很频繁 , 那么它的所有子集也必须很频繁 。
7. K-均值
K-means是一种将相似数据分组为聚类的迭代算法 , 它计算k个聚类的质心 , 并为其质心与数据点之间的距离最小的聚类分配一个数据点 。

科技小数据|0基础小白必知的10种机器学习算法
本文插图

图6:K-means算法的步骤
运作方式如下:
我们首先选择k的值 。 在这里 , 让我们说k =3 。 然后 , 我们将每个数据点随机分配给3个群体中的任何一个 。 计算每个群体的群集质心 。 红色 , 蓝色和绿色的星星分别代表3个星团的质心 。
接下来 , 将每个点重新分配给最近的聚类质心 。 在上图中 , 高5点被分配给具有蓝色质心的聚类 。 遵循相同的过程将点分配给包含红色和绿色质心的聚类 。
然后 , 计算新群集的质心 。 旧的质心是灰色的星星;新的质心是红色 , 绿色和蓝色的星星 。
最后 , 重复步骤2-3 , 直到没有点从一个群集切换到另一个群集为止 。 一旦连续两个步骤都没有切换 , 请退出K-means算法 。
8. PCA
主成分分析(PCA)用于通过减少变量数量使数据易于浏览和可视化 。 这是通过将数据中的最大方差捕获到具有称为“主要成分”的轴的新坐标系中来完成的 。


推荐阅读