图解机器学习:人人都能懂的算法原理( 二 )


图解机器学习:人人都能懂的算法原理

文章插图
 
无监督学习——降维
「将特定的特征组合成更高级的特性」
人们在使用抽象的东西总是比使用零碎的特征更具有方便性 。举个例子,将所有长着三角形的耳朵、长鼻子和大尾巴的狗合并成一个很好的抽象概念——「牧羊犬」 。
再比如有关科技的文章中拥有更多科技术语,而政治新闻里最多的是政客的名字 。假如我们要将这些具有特性的单词以及文章组成一个新的特征,以保持其潜在关联度,SVD 便是个不错的选择 。
图解机器学习:人人都能懂的算法原理

文章插图
 
无监督学习——关联规则学习
「在订单流中分析出特征模式」
包括分析购物车,自动化营销策略等 。举个例子,顾客拿着六瓶啤酒走向收银台,在其路上是否该放些花生?如果放了,这些顾客多久会来买一次?如果啤酒花生是绝配,那还有其他什么事物也可进行这样的搭配呢?
图解机器学习:人人都能懂的算法原理

文章插图
 
现实生活中,每个大型零售商都有它们自己的专用解决方案,而当中技术水平最高的要数那些「推荐系统」 。
集成方法
「团结就是力量」,这句老话很好地表达了机器学习领域中「集成方法」的基本思想 。在集成方法中,我们通常会训练多个「弱模型」,以期待能组合成为一个强大的方法 。像各种经典 ML 竞赛中,差不多效果最好的那一拨,如梯度提升树、随机森林等都属于集成方法 。
一般而言集成方法的「组合方式」主要可以分为三种:Stacking、Bagging、Boosting 。
如下图所示,Stacking 通常考虑的是异质弱学习器,弱学习器可以先并行地训练,而后通过一个「元模型」将它们组合起来,根据不同弱模型的预测结果输出一个最终的预测结果 。
图解机器学习:人人都能懂的算法原理

文章插图
 
Bagging 方法通常考虑的是同质弱学习器,相互独立地并行学习这些弱学习器,并按照某种确定性的平均过程将它们组合起来 。假设所有弱学习器都是决策树模型,那么这样做出来的 Bagging 就是随机森林 。
图解机器学习:人人都能懂的算法原理

文章插图
 
Boosting 方法通常考虑的也是同质弱学习器,只不过它的思想是「分而治之」 。它以一种高度自适应的方法顺序地学习这些弱学习器,且后续弱模型重点学习上一个弱模型误分类的数据 。
这就相当于不同的弱分类器,专注于部分数据,达到「分而治之」的效果 。如下所示,Boosting 就是以串行组合不同模型的范式 。大名鼎鼎的 XGBoost、LightGBM 这些库或算法,都采用的 Boosting 方法 。
图解机器学习:人人都能懂的算法原理

文章插图
 
现在,从朴素贝叶斯到 Boosting 方法,经典机器学习的主要分支已经具备了 。如果读者希望有一个更系统与详细地了解,李航老师的《统计学习方法》与周志华老师的《机器学习》是最好的两本中文教程 。
当然,在这篇博客中,作者还介绍了强化学习与深度学习等等,内容非常适合对人工智能感兴趣且非相关专业的读者,加上形象的配图,算得上是篇非常不错的科普文 。如果你对这种简单易懂的叙述方式感兴趣的话,可以去博客上详细阅读 。
参考链接:
https://vas3k.com/blog/machine_learning/

【图解机器学习:人人都能懂的算法原理】


推荐阅读