|金钱能让人更快乐吗?手把手教你用机器学习找到答案
导读:本文通过“金钱能让人更快乐吗?”等实操案例带你了解基于实例的学习和基于模型的学习 。
作者:Aurélien Géron
来源:华章科技
本文插图
一种对机器学习系统进行分类的方法是看它们如何泛化 。 大多数机器学习任务是要做出预测 。 这意味着系统需要通过给定的训练示例 , 在它此前并未见过的示例上进行预测(泛化) 。 在训练数据上实现良好的性能指标固然重要 , 但是还不够充分 。 真正的目的是要在新的对象实例上表现出色 。
泛化的主要方法有两种:基于实例的学习和基于模型的学习 。
01 基于实例的学习
我们最司空见惯的学习方法就是简单地死记硬背 。 如果以这种方式创建一个垃圾邮件过滤器 , 那么它可能只会标记那些与已被用户标记为垃圾邮件完全相同的邮件—这虽然不是最差的解决方案 , 但肯定也不是最好的 。
除了完全相同的 , 你还可以通过编程让系统标记与已知的垃圾邮件非常相似的邮件 。 这里需要两封邮件之间的相似度度量 。 一种(基本的)相似度度量方式是计算它们之间相同的单词数目 。 如果一封新邮件与一封已知的垃圾邮件有许多单词相同 , 系统就可以将其标记为垃圾邮件 。
这被称为基于实例的学习:系统用心学习这些示例 , 然后通过使用相似度度量来比较新实例和已经学习的实例(或它们的子集) , 从而泛化新实例 。 例如 , 图1-15中的新实例会归为三角形 , 因为大多数最相似的实例属于那一类 。
本文插图
▲图1-15:基于实例的学习
02 基于模型的学习
从一组示例集中实现泛化的另一种方法是构建这些示例的模型 , 然后使用该模型进行预测 。 这称为基于模型的学习(见图1-16) 。
【|金钱能让人更快乐吗?手把手教你用机器学习找到答案】
本文插图
▲图1-16:基于模型的学习
举例来说 , 假设你想知道金钱是否让人感到快乐 , 你可以从经合组织(OECD)的网站上下载“幸福指数”的数据 , 再从国际货币基金组织(IMF)的网站上找到人均GDP的统计数据 , 将数据并入表格 , 按照人均GDP排序 , 你会得到如表1-1所示的摘要 。
本文插图
表1-1:金钱能让人更快乐吗?
让我们绘制这些国家的数据(见图1-17) 。
本文插图
▲图1-17:趋势图
这里似乎有一个趋势!虽然数据包含噪声(即部分随机) , 但是仍然可以看出随着该国人均GDP的增加 , 生活满意度或多或少呈线性上升的趋势 。 所以你可以把生活满意度建模成一个关于人均GDP的线性函数 。 这个过程叫作模型选择 。 你为生活满意度选择了一个线性模型 , 该模型只有一个属性 , 就是人均GDP(见公式1-1) 。
公式1-1:一个简单的线性模型
生活满意度= θ0 + θ1×人均GDP
这个模型有两个模型参数:θ0和θ1 。 通过调整这两个参数 , 可以用这个模型来代表任意线性函数 , 如图1-18所示 。
本文插图
▲图1-18:一些可能的线性模型
在使用模型之前 , 需要先定义参数θ0和θ1的值 。 怎么才能知道什么值可以使模型表现最佳呢?要回答这个问题 , 需要先确定怎么衡量模型的性能表现 。 要么定义一个效用函数(或适应度函数)来衡量模型有多好 , 要么定义一个成本函数来衡量模型有多差 。
推荐阅读
- 黑洞|宇宙中的4大巧合,看起来让人费解,仔细想想又很合理
- 中关村在线|iPhone 12 mini续航让人抓狂:玩游戏两小时没电
- 东方网|“双十一”结束就降价?“保价”套路让人防不胜防!
- 快递|@尾款人,你双11提前收快递的快乐,靠这些连夜奋战的人帮你实现
- |在金钱有限的情况下,如何花钱才能获得最多的快乐?|打工人必读
- 技术|李彦宏:“八大关键技术” 让人工智能的梦想照进现实
- 5G|华为西班牙路演:让人们切实感受5G改变生产生活
- 特斯拉|为啥特斯拉不用整块大电池,偏用小电池组?原因让人意外
- 双十一|双十一走进机械革命生产基地,探访笔记本制造工艺,让人大开眼界
- 小研测评|iPhone12 mini预售在即,让人又爱又恨,是你的菜吗?