图解机器学习：人人都能懂的算法原理( 二 ) _机器学习

文章插图

无监督学习——降维

「将特定的特征组合成更高级的特性」

人们在使用抽象的东西总是比使用零碎的特征更具有方便性。举个例子，将所有长着三角形的耳朵、长鼻子和大尾巴的狗合并成一个很好的抽象概念——「牧羊犬」。
再比如有关科技的文章中拥有更多科技术语，而政治新闻里最多的是政客的名字。假如我们要将这些具有特性的单词以及文章组成一个新的特征，以保持其潜在关联度，SVD 便是个不错的选择。

文章插图

无监督学习——关联规则学习

「在订单流中分析出特征模式」

包括分析购物车，自动化营销策略等。举个例子，顾客拿着六瓶啤酒走向收银台，在其路上是否该放些花生？如果放了，这些顾客多久会来买一次？如果啤酒花生是绝配，那还有其他什么事物也可进行这样的搭配呢？

文章插图

现实生活中，每个大型零售商都有它们自己的专用解决方案，而当中技术水平最高的要数那些「推荐系统」。
集成方法
「团结就是力量」，这句老话很好地表达了机器学习领域中「集成方法」的基本思想。在集成方法中，我们通常会训练多个「弱模型」，以期待能组合成为一个强大的方法。像各种经典 ML 竞赛中，差不多效果最好的那一拨，如梯度提升树、随机森林等都属于集成方法。
一般而言集成方法的「组合方式」主要可以分为三种：Stacking、Bagging、Boosting 。
如下图所示，Stacking 通常考虑的是异质弱学习器，弱学习器可以先并行地训练，而后通过一个「元模型」将它们组合起来，根据不同弱模型的预测结果输出一个最终的预测结果。

文章插图

Bagging 方法通常考虑的是同质弱学习器，相互独立地并行学习这些弱学习器，并按照某种确定性的平均过程将它们组合起来。假设所有弱学习器都是决策树模型，那么这样做出来的 Bagging 就是随机森林。

文章插图

Boosting 方法通常考虑的也是同质弱学习器，只不过它的思想是「分而治之」。它以一种高度自适应的方法顺序地学习这些弱学习器，且后续弱模型重点学习上一个弱模型误分类的数据。
这就相当于不同的弱分类器，专注于部分数据，达到「分而治之」的效果。如下所示，Boosting 就是以串行组合不同模型的范式。大名鼎鼎的 XGBoost、LightGBM 这些库或算法，都采用的 Boosting 方法。

文章插图

现在，从朴素贝叶斯到 Boosting 方法，经典机器学习的主要分支已经具备了。如果读者希望有一个更系统与详细地了解，李航老师的《统计学习方法》与周志华老师的《机器学习》是最好的两本中文教程。
当然，在这篇博客中，作者还介绍了强化学习与深度学习等等，内容非常适合对人工智能感兴趣且非相关专业的读者，加上形象的配图，算得上是篇非常不错的科普文。如果你对这种简单易懂的叙述方式感兴趣的话，可以去博客上详细阅读。
参考链接：
https://vas3k.com/blog/machine_learning/

【图解机器学习：人人都能懂的算法原理】