Array|学术分享丨机器人操作学习系列分享：模仿学习( 二 ) Array|Array|Arra

目前， IRL算法常采用高斯过程或神经网络来建立具有状态特征的非线性奖励函数。这种表示法需要仔细的正则化以避免过度拟合。这对于经验收集昂贵的机器人技术来说尤其成问题。一些最近的IRL方法已经显示出可以在实际的机器人领域中工作，它通过交替奖励优化和策略优化步骤或将IRL框架转化为执行特征匹配的更直接的策略搜索问题来规避此障碍。如果有条件的话，可以通过将IRL问题转换为纯监督问题，使用分级演示来摆脱推理时间策略优化或MDP求解的需要。另外，主动学习技术已被用来降低IRL的计算复杂度，以及对示例者的信息性做出non-I.I.D假设的策略。
3、从观察中学习（Learning from Observation）
模仿学习是一个agent尝试使用另一个执行该任务的agent（通常是expert）生成的信息来学习如何执行特定任务的过程。按照惯例，模仿者可以访问由专家生成的状态和动作信息。但是，动作信息很难直接获得，而且要求动作信息会阻止从大量现有的宝贵学习资源（例如，在线视频）中进行模仿学习。例如，机器人可以观察人类正在执行的任务，但只能访问原始像素数据，而不能访问世界的真实基础状态，也不能访问人类采取的行动。这个问题被称为“从观察中学习”（LfO），近年来的LfO引起了极大的关注，其中，模仿者只能访问专家生成的状态信息（例如，视频帧）。在LfO的极端情况中， agent被期望从单帧目标状态图像而不是完整的观测轨迹中进行学习。图 1 介绍了当前LfO算法的分类。
图 1. LfO控制算法的分类的图形表示。这些算法可以分为两组：（1）基于模型的算法，其中算法可以使用前向动力学模型或逆动力学模型。（2）无模型算法，其本身可以归类为对抗性方法和奖励工程。
对抗性训练技术在计算机视觉领域取得了一些最新的令人兴奋的进展。其中一个这样的进展是在姿势估计领域，该领域能够通过关键点检测来检测杂波视频中对象的位置和方向，这样的关键点信息在LfO中也可能被证明是有用的。虽然有少量努力将这些进展纳入LfO ，但仍有许多工作需要研究。实际上，当前LfO算法很少在物理机器人上成功测试过。也就是说，大多数讨论结果仅在模拟域中进行。例如，尽管对抗性方法当前为许多基线实验LfO问题提供了最新的性能，但是这些方法显示出很高的样本复杂性，因此仅被应用于相对简单的模拟任务。因此， LfO中的一个开放问题是找到方法来适应这些技术，以便可以将它们用于像机器人应用一样禁止高样本复杂性的场景。
4、纠正交互（Corrective Interactions）
【Array|学术分享丨机器人操作学习系列分享：模仿学习】与其从完整的批量示例中学习，不如经常请求（可能是部分的）纠正示例或其他形式的反馈来学习策略，这通常是有利的。例如，一个人可以在倒水时进行干预，并且调整杯子的角度和机器人倒水时的角度。这为在最需要数据的情况下收集数据提供了一种自然的机制——例如，正在发生错误的情况，或者机器人非常不确定该做什么的情况。模仿者主动要求用户在可信度低或风险较高的状态空间区域进行额外示例，而其他方法则依靠人工用户来识别何时发生了错误。更高层次的信息也可以用来进行更稳健的校正，比如更正的基于预测的注释和高级有限状态机中的动作建议。TAMER框架没有使用纠正性的示例，而是利用有关机器人性能的实时数字人工反馈来纠正和塑造行为。机器人还可以在需要的时候主动寻求帮助，例如，通过自然语言。

Array|学术分享丨机器人操作学习系列分享：模仿学习( 二 )

推荐阅读

杭州|“我们就是鬼迷了心窍！”俩姑娘千里迢迢来杭州自首了

u1s2啥意思 u1s1是什么意思

使用浓替硝唑含漱液有哪些不良反应？

辨别|身体出问题了，嘴唇会给你“暗示”！教你如何从唇色辨别健康

朱之文|彩礼28万，婚车50万，法式豪宅，朱之文娶儿媳为啥这么舍得下本？

财经无忌谁将领跑中国功能饮料的下一个十年，答案在这里，千亿市场背后

【户籍】上海户籍人口期望寿命逾83岁

周樵夫|潜意识会有这些痕迹，藏不住的，有过关系的人

揭秘北上资金：连续5日加仓161只个股（附部分名单）

【小夜情感故事】世事漫随，一梦浮生，3星座再遇旧爱，人间温柔，2020年

湘湘爱美食|降温解暑还美容养颜，做一大锅都不够吃，高阶版西米露

#大表哥聊数码#游戏党们千万别入坑，公认续航最差的四款手机

如何写好高考作文(好的语文作文标题)

秧歌步怎么走?

杂技演员|沙宝亮英勇救人！路上遇车祸钻车将被困人员拉出，善举获赞无数

#冷炮历史飞虎#汉产防护服出口支援国际抗疫，供电保障按下“加速键”

亲朋|23桌婚宴放倒30多名亲友!岳父都进了医院,还有人发烧做核酸检测

大头聊娱室|吞并70个国家，差点成为中国统治者，中国一部落曾经被视为蛮夷

个人教学工作总结(个人教育教学经验总结)

怎样更改或取消GMAT考试