Array|学术分享丨机器人操作学习系列分享:模仿学习( 二 )


目前 , IRL算法常采用高斯过程或神经网络来建立具有状态特征的非线性奖励函数 。这种表示法需要仔细的正则化以避免过度拟合 。这对于经验收集昂贵的机器人技术来说尤其成问题 。一些最近的IRL方法已经显示出可以在实际的机器人领域中工作 , 它通过交替奖励优化和策略优化步骤或将IRL框架转化为执行特征匹配的更直接的策略搜索问题来规避此障碍 。如果有条件的话 , 可以通过将IRL问题转换为纯监督问题 , 使用分级演示来摆脱推理时间策略优化或MDP求解的需要 。另外 , 主动学习技术已被用来降低IRL的计算复杂度 , 以及对示例者的信息性做出non-I.I.D假设的策略 。
3、从观察中学习 (Learning from Observation)
模仿学习是一个agent尝试使用另一个执行该任务的agent(通常是expert)生成的信息来学习如何执行特定任务的过程 。按照惯例 , 模仿者可以访问由专家生成的状态和动作信息 。但是 , 动作信息很难直接获得 , 而且要求动作信息会阻止从大量现有的宝贵学习资源(例如 , 在线视频)中进行模仿学习 。例如 , 机器人可以观察人类正在执行的任务 , 但只能访问原始像素数据 , 而不能访问世界的真实基础状态 , 也不能访问人类采取的行动 。这个问题被称为“从观察中学习”(LfO) , 近年来的LfO引起了极大的关注 , 其中 , 模仿者只能访问专家生成的状态信息(例如 , 视频帧) 。在LfO的极端情况中 , agent被期望从单帧目标状态图像而不是完整的观测轨迹中进行学习 。图 1 介绍了当前LfO算法的分类 。
图 1. LfO控制算法的分类的图形表示 。这些算法可以分为两组:(1)基于模型的算法 , 其中算法可以使用前向动力学模型或逆动力学模型 。(2)无模型算法 , 其本身可以归类为对抗性方法和奖励工程 。
对抗性训练技术在计算机视觉领域取得了一些最新的令人兴奋的进展 。其中一个这样的进展是在姿势估计领域 , 该领域能够通过关键点检测来检测杂波视频中对象的位置和方向 , 这样的关键点信息在LfO中也可能被证明是有用的 。虽然有少量努力将这些进展纳入LfO , 但仍有许多工作需要研究 。实际上 , 当前LfO算法很少在物理机器人上成功测试过 。也就是说 , 大多数讨论结果仅在模拟域中进行 。例如 , 尽管对抗性方法当前为许多基线实验LfO问题提供了最新的性能 , 但是这些方法显示出很高的样本复杂性 , 因此仅被应用于相对简单的模拟任务 。因此 , LfO中的一个开放问题是找到方法来适应这些技术 , 以便可以将它们用于像机器人应用一样禁止高样本复杂性的场景 。
4、纠正交互 (Corrective Interactions)
【Array|学术分享丨机器人操作学习系列分享:模仿学习】与其从完整的批量示例中学习 , 不如经常请求(可能是部分的)纠正示例或其他形式的反馈来学习策略 , 这通常是有利的 。例如 , 一个人可以在倒水时进行干预 , 并且调整杯子的角度和机器人倒水时的角度 。这为在最需要数据的情况下收集数据提供了一种自然的机制——例如 , 正在发生错误的情况 , 或者机器人非常不确定该做什么的情况 。模仿者主动要求用户在可信度低或风险较高的状态空间区域进行额外示例 , 而其他方法则依靠人工用户来识别何时发生了错误 。更高层次的信息也可以用来进行更稳健的校正 , 比如更正的基于预测的注释和高级有限状态机中的动作建议 。TAMER框架没有使用纠正性的示例 , 而是利用有关机器人性能的实时数字人工反馈来纠正和塑造行为 。机器人还可以在需要的时候主动寻求帮助 , 例如 , 通过自然语言 。


推荐阅读