用户的位置和酒店的位置;
酒店的特征,如酒店的价格、星级、位置吸引程度等;
用户过去预订酒店的历史,包括价格、酒店类型、酒店星级;·其他竞争对手的信息 。
根据用户的查询及用户的背景信息, Expedia返回推荐的酒店序列 。在Expedia.com上,典型的酒店搜索界面如图1-3所示 。根据返回的推荐结果,用户有3种选择: (1)付款预定推荐的酒店; (2)点击推荐的酒店但没有预订; (3)既没有点击也没有预订 。显然,根据用户的反应,我们希望在理想的酒店推荐结果中,对应于第一种选择的酒店能够排在最前面,并且对应于第二种选择的酒店排在对应于第三种选择的酒店前面 。
文章插图
图1-3 在Expedia.com上搜索酒店
1.2.5讨论
上文中的4个例子分别对应于机器学习中的4类典型问题:
回归( regression ) ;
分类(classification ) ;
推荐(recommendation ) ;
排序(ranking) 。
在第一类问题中,首先需要为每个病人构建一个特征向量x,然后构建一个函数,使得可以用(x)来预测病人的住院时间y 。注意,这里要预测的星(病人的住院时间y)的范围是0-365 (或者366) ,我们可以将其转化为回归问题 。在回归问题中,目标变量是一个连续值 。
在第二类问题中,需要为每个申请者构建一个特征向量x,而输出y是0或者1,代表批准贷款或者不批准贷款 。事实上,输出y也可以是批准的概率 。这是机器学习中典型的分类问题 。在分类问题中,目标变量y是一个离散变量 。与回归问题类似,我们的目标是构建一个函数f,使得fx)可以预测真实的v 。在典型的两类分类( binary classification )问题中,目标变量的取值为0或者1 (有时是-1或者1 ) 。在多类分类( multi-classclassification )问题中,我们有多个类,而目标变量的取值是其中之一 。
在第三类问题中,需要根据用户过去的历史为每个用户推荐相应的商品,这是一个典型的推荐问题 。与回归和分类问题相比,我们需要为每个用户返回一个感兴趣的商品序列 。
在第四类问题中,需要根据用户的输入(在上文的例子中是用户对于酒店的查询) ,从一系列对象(在这个例子中是酒店)中根据用户的需要返回一个对象的序列,使得该序列最前面的对象是用户最想要的 。这类问题称为排序(ranking )问题 。同前面的回归问题和分类问题相比,排序问题需要考虑整个返回序列 。与前面的影片推荐例子相比,在排序问题中我们需要明确的用户输入,而在影片推荐中我们只是根据用户过去的历史信息来进行推荐,用户没有进行明确的输入 。
在实际应用中,机器学习的应用远远超出上面的几个例子 。例如,近期非常热门的AlphaGo ,谷歌公司在其中使用了深度学习( deep learning )来学习围棋对弈;德国的蒂森克虏伯(ThyssenKrupp )集团作为电梯的主要制造商之一,应用机器学习来预测电梯发生故障的时间从而提前维修,降低电梯的综合运营成本;美国的很多大型零售商在开设新店时,都要搜集各个地区的各种信息和历史销售数据,通过建立机器学习模型的形式选择最优的店址 。
本文节选自《实用机器学习》
文章插图
本书围绕实际数据分析的流程展开,着重介绍数据探索、数据预处理和常用的机器学习算法模型 。本书从解决实际问题的角度出发,介绍回归算法、分类算法、推荐算法、排序算法和集成学习算法 。本书的最大特色就是贴近工程实践 。首先,本书仅侧重介绍当前工业界最常用的机器学习算法,而不追求知识本身的覆盖面;其次,本书在介绍每类机器学习算法时,力求通俗易懂地阐述算法思想,而不追求理论的深度,让读者借助代码获得直观的体验 。
推荐阅读
- 相见恨晚!这6款实用的电脑工具,你确定不看看?
- 计算机端口详解
- 2 人工智能——机器学习免费教程
- 茶包的实用美观设计,包装设计的要素和要求
- 2种防御性编码技术
- 茶叶与中国佛教,新安乡组织茶叶加工企业赴徽州区参观学习
- Linux系统中虚拟设备文件的各种实用用法
- 《机器学习算法的几大分类》
- python机器学习:多元线性回归模型实战
- 茶道操作十三流程,学习中国正宗的茶道