图解机器学习:人人都能懂的算法原理

机器之心报道
机器之心编辑部

算法公式挺费神,机器学习太伤人 。任何一个刚入门机器学习的人都会被复杂的公式和晦涩难懂的术语吓到 。但其实,如果有通俗易懂的图解,理解机器学习的原理就会非常容易 。本文整理了一篇博客文章的内容,读者可根据这些图理解看似高深的机器学习算法 。

图解机器学习:人人都能懂的算法原理

文章插图
 
机器学习这个主题已经很普遍了,每个人都在谈论它,但很少有人能够透彻地了解它 。当前网络上的一些机器学习文章晦涩难懂,理论性太强,或者通篇云里雾里地介绍人工智能、数据科学的魔力以及未来的工作等 。
所以呢,本文作者 vas3k 通过简洁的语言和清晰明了的图示内容,使得读者能够更容易地理解机器学习 。抛却了晦涩难懂的理论介绍,文中侧重于机器学习中的实际问题、行之有效的解决方案和通俗易懂的理论 。无论你是程序员还是管理者,本文都适合你 。
AI 的范畴
AI 到底它包含了哪些领域,它与各种技术名词之间的关系又是什么样的?其实我们会有多种判断方式,AI 范畴的划分也不会是唯一的,例如最「常见」的认识可能如下图所示 。
你可能会认为:
  • 人工智能是个完整的知识领域,类似于生物学或者是化学;
  • 机器学习是人工智能中非常重要的一部分,但并不是唯一一个部分;
  • 神经网络是机器学习的一种,现在非常受欢迎,但依然有其他优秀的算法;

图解机器学习:人人都能懂的算法原理

文章插图
 
但是,难道深度学习都是神经网络吗?明显并不一定是,例如周志华老师的深度森林,它就是第一个基于不可微构件的深度学习模型 。因此,更科学的划分可能是下图花书中的这种:
图解机器学习:人人都能懂的算法原理

文章插图
 
机器学习下面应该是表示学习,即概括了所有使用机器学习挖掘表示本身的方法 。相比传统 ML 需要手动设计数据特征,这类方法能自己学习好用的数据特征 。整个深度学习也是一种表示学习,通过一层层模型从简单表示构建复杂表示 。
机器学习路线图
如果你比较懒,那这有一张完整的技术路线图供你参考 。
图解机器学习:人人都能懂的算法原理

文章插图
 
按照现阶段主流分类来看,机器学习主要分为四类:
  • 经典机器学习;
  • 强化学习;
  • 神经网络和深度学习;
  • 集成方法;

图解机器学习:人人都能懂的算法原理

文章插图
 
经典机器学习
经典机器学习经常被划分为两类:监督型学习和非监督型学习 。
图解机器学习:人人都能懂的算法原理

文章插图
 
监督学习
在分类中,模型总是需要一个导师,即对应特征的标注,这样的话机器就可以基于这些标注学习进行进一步分类 。万事皆可分类,基于兴趣去分类用户、基于语言和主题分类文章、基于类型而分类音乐以及基于关键词分类电子邮件 。
而在垃圾邮件过滤中,朴素贝叶斯算法得到了极其广泛的应用 。事实上,朴素贝叶斯曾被认为是最优雅、最实用的算法 。
图解机器学习:人人都能懂的算法原理

文章插图
 
支持向量机 (SVM) 是最流行的经典分类方法 。也是被用来对现有的一切事物进行分类: 照片中的植物外观,文件等等等 。支持向量机背后的思路也很简单,以下图为例,它试图在数据点之间画出两条边距最大的线 。
图解机器学习:人人都能懂的算法原理

文章插图
 
监督学习——回归
回归基本上是分类,但预测的标的是一个数字而不是类别 。例如按里程计算的汽车价格,按时间计算的交通量,按公司增长计算出市场需求量等 。当所预测的事物是依赖于时间时,回归是非常合适的选择 。
图解机器学习:人人都能懂的算法原理

文章插图
 
无监督学习
无监督学习是 90 年代才被发明出来的,可以这么去描述它「根据未知特征对目标进行分割,而由机器去选择最佳方式 。」
无监督学习——聚类
聚类是一种没有预先定义类的分类 。比如当你不记得你所有的颜色时,把袜子按颜色分类一样 。聚类算法试图通过某些特征从而找到相似的对象并将它们合并到一个聚类中 。


推荐阅读