培训方法解析人工智能产品经理培训( 四 ) _小知识

四、半监督学习当我们有能力标记数据并对标记的信息进行分类和回归时，就会使用监督学习。
无监督训练是没有标记信息的训练，通常用于聚类。但是有时候我们手里的数据只是部分标注而不是全部标注，可以用半监督学习来完成。
笔者近年来正在做的“全国政府网站监控工程”就是一个很好的例子:
该项目监测了全国9万多个政府网站和24亿个各级政府网站的页面。如图4-13所示，项目需要做的就是找出这些页面是否有异常，用户对那些页面更感兴趣。
多达几十亿的页面，不可能标注所有页面，被标注的页面只有几万个。如果直接丢弃未标记样本集，使用传统的监督学习，不仅很可惜，还会因为训练样本不足而导致数据失真，影响机器学习的效果。如何有效地利用未标记数据成为要讨论的内容。
最简单的方法是对未标记的页面进行标记，但这带来了巨大的人力成本。如果一个人用0.5分钟标记一个页面，那么一个人不休息就要用365天标记24亿个页面，需要5400多年才能完成。
该项目采用半监督学习方法完成工作。首先，使用标记样本数据集训练一个学习器，然后基于该学习器预测未标记样本。
对预测的结果样本进行分类，对不确定度高和分类置信度低的样本进行两次标注，最后将数据扩展到训练集，再次训练学习器，最后生成结果。
显然，半监督学习本质上仍然是一种监督学习，对训练数据样本进行半自动处理，但与完全监督学习相比，其学习成本大大降低。对于监督学习和非监督学习的各种算法，如果数据集满足半监督学习的特性，就可以使用半监督学习。
五、强化学习强化学习也叫:强化学习和评估学习。
如果用标准定义来描述强化学习，那么强化学习的目标就是学习一个最优的策略，这个策略可以使Agent在特定的环境下按照当前的状态行动，从而获得最大的回报。强化学习经常与监督学习和非监督学习混淆。
强化学习将学习视为一个启发式的评估过程。如图所示，代理为环境选择一个操作。环境接受动作后，状态发生变化，同时产生强化信号，反馈给智能体。代理根据强化信号和环境的当前状态选择下一个动作。选择的原则是增加正强化的概率。
选定的动作不仅影响即时的强化值，还会影响下一时刻的环境状态和最终的强化值。
监督学习就像学生考试，旁边站着一个导师。学生做完一道题，老师会马上告诉你，他做错了或者做对了。
但是现实世界是复杂的。很多实际问题没有标准答案，只有那种答案比较合适。强化学习的过程就像训练动物一样。动物每做一件事，都需要驯兽师的及时反馈，而这种反馈的好坏会影响它接下来的行为。
【培训方法解析人工智能产品经理培训】人工智能的强化学习是这样的。通过一次又一次强化的过程，机器可以知道哪种行为可以获得最好的回报。由于强化学习的实时反馈特性，强化学习被广泛应用于机器人领域。
监督学习和强化学习都可以通过算法得到从输入数据到输出结果的关系映射。监督学习给出了输入和输出的关系，可以告诉算法什么样的输入对应什么样的输出。
强化学习给出反馈信息，判断这种行为是好是坏。当然，强化学习给出的是反馈信息，所以整个过程是延迟的，有时需要几个过程才能知道前一个节点对不对。

培训方法解析人工智能产品经理培训( 四 )

推荐阅读

人生赢家！42岁中年男子退休，十年换回身价100亿

快科技认准这三点保准不会上当，挑选硬盘这些诀窍你要懂

财猫资讯|这只概念龙头直线拉升封板，瞬间涨停！传字节跳动将上市

阳光总在风雨后作文600字阳光总在风雨后作文

应用程序加固Tomcat篇

官宣@接下来将要播出的八部已官宣定档的剧集，你最想看其中的哪部呢？

吃货吃货|下班后半小时就能吃上饭，很快就能学会这几道美食

上游新闻·重庆晨报|这也叫“爱”？女子为爱贩毒获刑九年男友却辩称：都是她干的

勒布朗·詹姆斯|就不惯着你！戴维斯后湖人又有一人，多次顶撞老詹，不让他摆臭脸

switch十大最良心大型单机游戏推荐2022

广州人饮茶斟水时为何要将茶盅揭开

某品牌一出新手机就换新机是一种啥心态

「敏叔说时尚」看到她时髦打扮，不给开20万月薪请不来，老板想挖位女经理

测评传声筒：不足3w，三年跑6万公里，老婆说：省油好开，给老婆买的合资小车

美人哒|中段挖空用一个圆环固定，效果意外，刘亦菲穿连衣裙太高能

做法|糯米蒸排骨，做法太简单了，照着步骤做，又软又糯，还香味十足

外贸精英|外贸充电站：一封值得借鉴的询盘分析和回复思路？

「藤井树花猫诗」财神傍身，财运滚滚，4月不缺钱花的生肖

西红柿小生|苹果调低iPhone以旧换新折抵价：用户瞬间亏掉数百元

波多黎各换格陵兰岛▲猛料！特朗普被曝曾想卖掉这里，“又脏又穷”！

培训方法解析 人工智能产品经理培训( 四 )

推荐阅读

培训方法解析人工智能产品经理培训( 四 )