解析服务型智能机器人的学习方法论( 二 ) _机器人

这种做法在面对确定性环境时较为快捷，但无法应对动态环境下未知状态带来的影响，即当实际执行时，由于累计误差和噪声等因素的影响，机器人到达未出现在专家示教序列中的状态时，其决策行为将无法得到有效保证。另一种方法是使用逆强化学习，借助环境探索，机器人少儿评价，不仅要求在专家示教包含的状态上做出相似于专家的决策行为，同时通过在整个观测空间回归代价函数并进行优化，使得学习到的策略在未包含在示教中的状态上，做出最大可能回到示教状态的行为。在儿童机器人方案中，不管使用监督学习或逆强化学习中的何种方式，模仿学习方法由于学习目标在模仿专家行为，因此对专家示教的数量和质量都提出了极高的要求，在示教较少，质量不好的情况下，很难进行有效的学习。

作为一种人在回路中的学习方法，倾向性学习的核心是人参与交互的便捷性，其中包括尽可能少的交互次数、尽可能充分的对样本的利用、尽可能符合人习惯的倾向性信息获取方式。编程机器人在以上三种倾向性学习方式中，第一种方式虽然较为简单直观，但要求专家在机器人每一次决策时给出判断，效率较低；第二种方式的学习稳定性依赖每一次交互得到的倾向性建模好坏，对策略缺少合理的约束使得求解效率低下；第三种方式将倾向性学习问题转化为一种类似于对倾向性选择得到结果的模仿学习，具备模仿学习的高效性和稳定性，但不适用于以排序为呈现形式的倾向性数据。

综上所述，通过借助示教的强化学习和倾向性学习，我们可以部分解决示教和回报函数质量不高或难以提供情形下的学习问题，面对现实生活中的机器人操作技能学习问题，在已经充分建模的确定性环境如生产线中，科学机器人现有的基于学习的方法仍难以取代基于手工方式设计实现的传统意义下的机器人控制器。相关领域的研究目前仍处在实验室阶段，但由于学习方法能够明显减轻人工设计规则的压力，同时从原理上能够有效地应对动态环境与交互操作需求，基于学习的方法有极大的研究必要性，相关领域也在快速发展中。此份简述仅作为对其中两个小方向的部分总结，机器人操作技能学习领域仍有大量待解决的问题，值得进行更深入的探讨。

解析服务型智能机器人的学习方法论( 二 )

推荐阅读

『快科技』AMD RX 6000系列旗舰级显卡曝光：别太当真

爷青|【爷青回】静安公安“我型我秀”，等你来SHOW

「湖北」最新！湖北新增确诊570例，湖北以外地区新增3例

孕妈咪育儿经罪魁祸首并非糖果，而是父母的不当回事，三岁孩子满嘴“鲨鱼牙”

适应生活|只有短短的三句，读完不禁黯然，李白生前最后一首诗

金融|中国平安：每年15%至20%的新增金融客户来自医疗生态圈

最新项目融资需求分析模板融资需求怎么写范本

沈腾|曝沈腾已停工赶赴日本做恢复治疗，妻子王琦深夜与友人聚餐！

体坛焦点但我们都会慢慢适应的，托马斯：对和队友保持距离训练不习惯

教你葡萄酒在家做，酸酸甜甜家酿葡萄酒

李贺的资料简介100字李贺的资料

去黄山看日出旅游攻略和注意事项

上观新闻|首次跌破20℃，今天是今年下半年以来最冷一天，这场雨什么时候才会停？

金属加工|在线测量技术在标准动车组构架加工中的开发应用

O科技|高通与中国伙伴合力推动5G万物互联，手机、XR、机器人只是开始

闹大了！西安取消多场演唱会，刘若英张杰受牵连，TF组合被骂惨

珠宝|求婚戒指戴哪只手指？8个有关钻石戒指的迷思

lck|IG肉鸡解说s赛，评价两个赛区差别时，LCK解说的脸色不好看了

|此人是彻头彻尾的民族败类, 但现在某些人却在竭尽所能地美化他!

TVB|万绮雯：错过甄子丹，嫁陈十三20年，50岁仍是”马小玲“模样