培训方法解析 人工智能产品经理培训( 四 )


四、半监督学习 当我们有能力标记数据并对标记的信息进行分类和回归时,就会使用监督学习 。
无监督训练是没有标记信息的训练,通常用于聚类 。但是有时候我们手里的数据只是部分标注而不是全部标注,可以用半监督学习来完成 。
笔者近年来正在做的“全国政府网站监控工程”就是一个很好的例子:
该项目监测了全国9万多个政府网站和24亿个各级政府网站的页面 。如图4-13所示,项目需要做的就是找出这些页面是否有异常,用户对那些页面更感兴趣 。
多达几十亿的页面,不可能标注所有页面,被标注的页面只有几万个 。如果直接丢弃未标记样本集,使用传统的监督学习,不仅很可惜,还会因为训练样本不足而导致数据失真,影响机器学习的效果 。如何有效地利用未标记数据成为要讨论的内容 。
最简单的方法是对未标记的页面进行标记,但这带来了巨大的人力成本 。如果一个人用0.5分钟标记一个页面,那么一个人不休息就要用365天标记24亿个页面,需要5400多年才能完成 。
该项目采用半监督学习方法完成工作 。首先,使用标记样本数据集训练一个学习器,然后基于该学习器预测未标记样本 。
对预测的结果样本进行分类,对不确定度高和分类置信度低的样本进行两次标注,最后将数据扩展到训练集,再次训练学习器,最后生成结果 。
显然,半监督学习本质上仍然是一种监督学习,对训练数据样本进行半自动处理,但与完全监督学习相比,其学习成本大大降低 。对于监督学习和非监督学习的各种算法,如果数据集满足半监督学习的特性,就可以使用半监督学习 。
五、强化学习 强化学习也叫:强化学习和评估学习 。
如果用标准定义来描述强化学习,那么强化学习的目标就是学习一个最优的策略,这个策略可以使Agent在特定的环境下按照当前的状态行动,从而获得最大的回报 。强化学习经常与监督学习和非监督学习混淆 。
强化学习将学习视为一个启发式的评估过程 。如图所示,代理为环境选择一个操作 。环境接受动作后,状态发生变化,同时产生强化信号,反馈给智能体 。代理根据强化信号和环境的当前状态选择下一个动作 。选择的原则是增加正强化的概率 。
选定的动作不仅影响即时的强化值,还会影响下一时刻的环境状态和最终的强化值 。
监督学习就像学生考试,旁边站着一个导师 。学生做完一道题,老师会马上告诉你,他做错了或者做对了 。
但是现实世界是复杂的 。很多实际问题没有标准答案,只有那种答案比较合适 。强化学习的过程就像训练动物一样 。动物每做一件事,都需要驯兽师的及时反馈,而这种反馈的好坏会影响它接下来的行为 。
【培训方法解析 人工智能产品经理培训】人工智能的强化学习是这样的 。通过一次又一次强化的过程,机器可以知道哪种行为可以获得最好的回报 。由于强化学习的实时反馈特性,强化学习被广泛应用于机器人领域 。
监督学习和强化学习都可以通过算法得到从输入数据到输出结果的关系映射 。监督学习给出了输入和输出的关系,可以告诉算法什么样的输入对应什么样的输出 。
强化学习给出反馈信息,判断这种行为是好是坏 。当然,强化学习给出的是反馈信息,所以整个过程是延迟的,有时需要几个过程才能知道前一个节点对不对 。


推荐阅读