Array|学术分享丨机器人操作学习系列分享:模仿学习

随着学会的队伍不断发展壮大 , 分支机构的发展愈发完善 , 丰富多彩的分支活动与学术分享也频频呈现 。疫情期间 , CAAI认知系统与信息处理专委会积极倡导学会“疫情防控不放松 , 学习充电不间断”的理念 , 邀请年轻学者结合本专委会自身领域研究精选相关文献进行研究与再解读 , 与大家分享《机器人操作学习系列分享:模仿学习》 。
人类从婴幼儿时期就学会模仿别人来获得许多新技能 , 这种行为被称为模仿学习 。我们古代中国就有很多形容人们模仿学习中成语 , 有如“邯郸学步”、“画虎成狗”、“鹦鹉学语”等都是形容模仿不到位的情况 , 又如“惟妙惟肖”、“栩栩如生”、“有模有样”等模仿极佳的状态 。因此 , 智能体如何通过模仿学习避免出现那些尴尬的状态 , 而达到完美的状态 , 也是亟待研究的课题 。
Array|学术分享丨机器人操作学习系列分享:模仿学习
文章图片

文章图片

目前模仿学习也成为许多研究领域的重要课题 , 包括心理学、神经科学、人工智能和机器人学 。模仿学习是机器学习诸多领域的交叉点 。它对应于一个复杂的优化问题 , 可以用不同的方式形式化 , 例如结构化输出预测问题或半监督学习问题 。模仿学习还与强化学习、在线主动学习、多智能体学习、特征建构等有着密切的关系 。
从机器学习的角度来看 , 模仿学习是一种解决控制和顺序决策问题的学习方法 。在模仿学习社区内 , 机器人获得专家的示例数据主要包括运动示教、遥操作、动作捕捉 , 视觉实例等等 。最近 , 相关研究领域可分为以下子领域:行为克隆 , 奖励推断 , 从观察中学习 , 纠正交互 。
1、行为克隆(Behavioral Cloning)
行为克隆是模仿学习中最简单方法 , 采用直接模仿的方式 。在这种情况下 , 从所提供的例子归纳问题通常被简化为一个有监督的学习问题 , 而不必对教师的意图作出假设 。基于监督学习从示教数据学习机器人的策略 , 通过以任意一条专家示教轨迹的任意一个时刻的状态 s 作为算法的输入 ,与 s 对应的动作 a 设置为算法的输出 , 就可以应用传统的监督学习算法来解决这个模仿学习的问题 。比如 , 通过控制一个机器臂的七个关节的角度来执行一个指定的动作 , 可以设计神经网络的输出为这七个关节的角度值或者这七个关节角度的概率分布来解决这个问题 。如果采用高斯分布的话 , 可以设计神经网络输出对应角度的均值和方差 。直接采用上述监督学习的思路来解决模仿学习问题的方法 , 虽然然很简单 , 但是在某些领域却拥有着很不错的表现 。在理想想情况下所学的策略能够在新场景中重现所示例的行为 。
2、奖励推断 (Reward Inference)
奖励推断旨在提取专家的运动/操作意图 , 而不是动作本身的低级细节 。此类方法通常包括逆强化学习(IRL)、学徒学习(apprenticeshiplearning)或逆最优控制(inverseoptimal control) 。该类方法通过假设专家最大化某个奖励函数来实现操作动作 , 学习者的目标是找到解释专家行为的奖励函数 。推断获得的奖励函数可进一步通过RL算法来学习任务的策略 。IRL范式(IRL paradigm)有以下几个优点: 1) 如果奖励函数是世界上物体或特征的函数 , 可自然地从人移植到机器人 , 而不存在遇到对应问题 。2) 奖励函数通常是稀疏的 , 因此提供了一种自然的方法 , 从少量的训练数据进行归纳 , 即使在非常大的状态空间中也是如此 。3) 人类的行为可能会编码有关任务的大量背景信息 , 这种信息很容易在奖励函数中进行编码 , 但在策略中编码起来较复杂 , 并且可以在以后的上下文中重新使用 。
最值得注意的是 , 从根本上IRL问题是不适定的(ill-posed)-存在无限多个奖励函数 , 且它们会导致相同的最优策略 。因此 , 许多IRL算法之间的区别在于如何消除歧义或显示对某些奖励函数偏好的指标 。最大熵(Maximum Entropy)IRL通过利用概率框架(probabilistic framework)和最大熵原则消除了可能的奖励函数的歧义 , 较好地解决了示例者次优性和不适定的问题 。具体来说 , 在给定奖励函数下 , 给所有会获得同等回报的轨迹分配相同的概率 , 然后使用这种分布以更好地匹配示例的特征计数 , 同时避免具有除数据指示偏好之外的任何其他偏好 。


推荐阅读