培训方法解析 人工智能产品经理培训( 四 )
四、半监督学习 当我们有能力标记数据并对标记的信息进行分类和回归时,就会使用监督学习 。
无监督训练是没有标记信息的训练,通常用于聚类 。但是有时候我们手里的数据只是部分标注而不是全部标注,可以用半监督学习来完成 。
笔者近年来正在做的“全国政府网站监控工程”就是一个很好的例子:
该项目监测了全国9万多个政府网站和24亿个各级政府网站的页面 。如图4-13所示,项目需要做的就是找出这些页面是否有异常,用户对那些页面更感兴趣 。
多达几十亿的页面,不可能标注所有页面,被标注的页面只有几万个 。如果直接丢弃未标记样本集,使用传统的监督学习,不仅很可惜,还会因为训练样本不足而导致数据失真,影响机器学习的效果 。如何有效地利用未标记数据成为要讨论的内容 。
最简单的方法是对未标记的页面进行标记,但这带来了巨大的人力成本 。如果一个人用0.5分钟标记一个页面,那么一个人不休息就要用365天标记24亿个页面,需要5400多年才能完成 。
该项目采用半监督学习方法完成工作 。首先,使用标记样本数据集训练一个学习器,然后基于该学习器预测未标记样本 。
对预测的结果样本进行分类,对不确定度高和分类置信度低的样本进行两次标注,最后将数据扩展到训练集,再次训练学习器,最后生成结果 。
显然,半监督学习本质上仍然是一种监督学习,对训练数据样本进行半自动处理,但与完全监督学习相比,其学习成本大大降低 。对于监督学习和非监督学习的各种算法,如果数据集满足半监督学习的特性,就可以使用半监督学习 。
五、强化学习 强化学习也叫:强化学习和评估学习 。
如果用标准定义来描述强化学习,那么强化学习的目标就是学习一个最优的策略,这个策略可以使Agent在特定的环境下按照当前的状态行动,从而获得最大的回报 。强化学习经常与监督学习和非监督学习混淆 。
强化学习将学习视为一个启发式的评估过程 。如图所示,代理为环境选择一个操作 。环境接受动作后,状态发生变化,同时产生强化信号,反馈给智能体 。代理根据强化信号和环境的当前状态选择下一个动作 。选择的原则是增加正强化的概率 。
选定的动作不仅影响即时的强化值,还会影响下一时刻的环境状态和最终的强化值 。
监督学习就像学生考试,旁边站着一个导师 。学生做完一道题,老师会马上告诉你,他做错了或者做对了 。
但是现实世界是复杂的 。很多实际问题没有标准答案,只有那种答案比较合适 。强化学习的过程就像训练动物一样 。动物每做一件事,都需要驯兽师的及时反馈,而这种反馈的好坏会影响它接下来的行为 。
【培训方法解析 人工智能产品经理培训】人工智能的强化学习是这样的 。通过一次又一次强化的过程,机器可以知道哪种行为可以获得最好的回报 。由于强化学习的实时反馈特性,强化学习被广泛应用于机器人领域 。
监督学习和强化学习都可以通过算法得到从输入数据到输出结果的关系映射 。监督学习给出了输入和输出的关系,可以告诉算法什么样的输入对应什么样的输出 。
强化学习给出反馈信息,判断这种行为是好是坏 。当然,强化学习给出的是反馈信息,所以整个过程是延迟的,有时需要几个过程才能知道前一个节点对不对 。
推荐阅读
- 时长解析及注销流程图 头条号注销后多久可以重新注册
- 图示最实用的解封方法 闲鱼号被永久封了怎么办
- 超详解析产品预售设置步骤 拼多多预售是什么意思怎么设置的
- 31元红包免费领 饿了么红包免费领取的方法
- 超详解析其办理流程 网络视听许可证怎么办理
- 分享微博推广7大攻略 微博推广方法及策略
- 超详解析各种营销策略 拼多多营销策略分析
- 分享地推营销6大技巧 地推营销的方法有哪些
- 主要内容和7种方法 项目分析的步骤及注意事项
- 苹果屏幕录制开启方法 苹果的录制屏幕在哪里