实用机器学习:什么是机器学习?看完就明白了( 二 )


1.2实际应用
在本节中,我们将会介绍一些可用机器学习解决的实际问题,包括病人住院时间预测、信用分数估计、Nettix上的影片推荐和酒店推荐 。每个例子都对应一类不同的机器学习问题 。通过这些不同类型的机器学习问题,读者对机器学习可以有更多直观的感受 。
1.2.1 病人住院时间预测
机器学习在医疗行业有着广泛的应用 。我们以Heritage Health Prize竞赛作为例子以说明如何使用机器学习来预测病人未来的住院时间 。
在美国每年都有超过7000万人次住院 。根据相关统计, 2006年在护理病人住院上所花的无关费用就已经超过了300亿美元 。如果我们能够根据病人的病历提前预测病人将来的住院时间,那么就可以根据病人的具体情况提前做好相关准备从而减少那些无谓的开销 。同时,医院可以提前向病人发出预警,这样就能在降低医疗成本的同时提高服务质量 。在从2011年开始的Heritage Health Prize竞赛( HHP )中,竞争者成功地使用机器学习的方法,由病人的历史记录预测了病人在未来一年的住院时间 。图1-1显示了竞赛中使用的病历数据的一部分样本 。

实用机器学习:什么是机器学习?看完就明白了

文章插图
图1-1 病历数据示例
1.2.2信用分数估计
在现实生活中,向银行申请贷款是比较常见的,如房屋贷款、汽车贷款等 。银行在办理个人贷款业务时,会根据申请人的经济情况来估计申请人的还款能力,并根据不同还款能力确定安全的借款金额和相应的条款(如不同的利率) 。在美国,每个成年人都有相应的信用分数( credit score ) ,用来衡量和评估借款者的还款能力和风险 。
在估计申请者的还款能力时,需要搜集用户的多个方面的信息,包括:
收入情况;
年龄、性别;
职业;
家庭情况,如子女数量等;还款历史,包括未按时还款的记录、还款金额等;现有的各种贷款和欠款情况等 。
如何将这些因素综合考虑从而决定借贷者的信用分数呢?直观地讲,可以使用一些简单的规则来确定信用分数 。例如,某申请者的当前借款金额很高但收入一定,则进一步借款的风险很高,信用分数将会较低;又如,某申请者的某张信用卡在过去经常没有按时还款,则其信用分数也会较低 。虽然使用简单的规则能够大致解决信用分数估计的问题,但是这个办法最大的问题是不能自适应地处理大量数据 。随着时间的变化,申请者不还款的风险模型可能会发生变化,因此,相应的规则也需要修改 。
银行通常可以得到海量的申请者数据和对应的历史数据 。利用机器学习的方法,我们希望可以从这些申请者过去的还款记录中自适应地学习出相应的模型,从而能够“智能”地计算申请者的信用分数以了解贷款的风险 。具体地讲,在机器学习模型中,将申请者的信息作为输入,我们可以计算申请者在未来能够按时还款的概率 。作为一个典型的例子, FICO分数就是美国FICO公司利用机器学习模型开发出来的一个信用分数模型 。
1.2.3 Nettix上的影片推荐
Netflix是美国的一家网络视频点播公司,成立于1997年,到2015年该公司已经有了近7000万的订阅者并且在世界上超过40个国家或地区提供服务 。Netflix上的一项很重要的功能是根据用户的历史观看信息和喜好推荐相应的影片,如图1-2所示 。2006年10月至2009年9月, Netflix公司举办了Netflix Prize比赛,要求参赛者根据用户对于一些电影评价(1星~5星) ,推测用户对另外一些没有看过电影的评价 。如果能够准确地预测用户对于那些没有看过的电影的评价,就可以相应地向这些用户推荐他们感兴趣的电影,从而显著提高推荐系统的性能和Netflix公司的盈利水平 。
实用机器学习:什么是机器学习?看完就明白了

文章插图
图1-2 Netflix上的电影推荐
在Netflix Prize赛中,获胜的标准是将Netflix现有推荐系统的性能提高10% 。在2009年, Bellkor's Pragmatic Chaos队赢得了比赛 。其主要方法是基于矩阵分解的推荐算法,并使用集成学习的方法综合了多种模型 。Netflix Prize比赛显著地推动了推荐算法的研究,特别是基于矩阵分解的推荐算法的研究 。在本书中,我们也将详细介绍这些推荐算法 。
1.2.4 酒店推荐
Expedia是目前世界上最大的在线旅行代理( online travel agency , OTA )之一 。它的一项很重要的业务是向用户提供酒店预订,作为用户和大量酒店之间的桥梁 。对于用户的每个查询, Expedia需要根据用户的喜好,提供最优的排序结果,这样用户能够方便地从中选出最合适的酒店 。
Expedia于2013年年底与国际数据挖掘大会( International Conference on Data Mining , ICDM )联合举办了酒店推荐比赛 。在该项比赛中, Expedia提供了实际数据,包括用户的查询以及其对所推荐结果点击或者购买的记录 。在进行酒店推荐时, Expedia考虑了如下因素:


推荐阅读