解析服务型智能机器人的学习方法论( 二 )


 
这种做法在面对确定性环境时较为快捷,但无法应对动态环境下未知状态带来的影响,即当实际执行时,由于累计误差和噪声等因素的影响,机器人到达未出现在专家示教序列中的状态时,其决策行为将无法得到有效保证 。另一种方法是使用逆强化学习,借助环境探索,机器人少儿评价,不仅要求在专家示教包含的状态上做出相似于专家的决策行为,同时通过在整个观测空间回归代价函数并进行优化,使得学习到的策略在未包含在示教中的状态上,做出最大可能回到示教状态的行为 。在儿童机器人方案中,不管使用监督学习或逆强化学习中的何种方式,模仿学习方法由于学习目标在模仿专家行为,因此对专家示教的数量和质量都提出了极高的要求,在示教较少,质量不好的情况下,很难进行有效的学习 。
 
作为一种人在回路中的学习方法,倾向性学习的核心是人参与交互的便捷性,其中包括尽可能少的交互次数、尽可能充分的对样本的利用、尽可能符合人习惯的倾向性信息获取方式 。编程机器人在以上三种倾向性学习方式中,第一种方式虽然较为简单直观,但要求专家在机器人每一次决策时给出判断,效率较低;第二种方式的学习稳定性依赖每一次交互得到的倾向性建模好坏,对策略缺少合理的约束使得求解效率低下;第三种方式将倾向性学习问题转化为一种类似于对倾向性选择得到结果的模仿学习,具备模仿学习的高效性和稳定性,但不适用于以排序为呈现形式的倾向性数据 。
 
综上所述,通过借助示教的强化学习和倾向性学习,我们可以部分解决示教和回报函数质量不高或难以提供情形下的学习问题,面对现实生活中的机器人操作技能学习问题,在已经充分建模的确定性环境如生产线中,科学机器人现有的基于学习的方法仍难以取代基于手工方式设计实现的传统意义下的机器人控制器 。相关领域的研究目前仍处在实验室阶段,但由于学习方法能够明显减轻人工设计规则的压力,同时从原理上能够有效地应对动态环境与交互操作需求,基于学习的方法有极大的研究必要性,相关领域也在快速发展中 。此份简述仅作为对其中两个小方向的部分总结,机器人操作技能学习领域仍有大量待解决的问题,值得进行更深入的探讨 。




推荐阅读