技术编程探索与执行：通过元强化学习分解实现无奖励自适应( 三 ) |智能机器人|

本文插图
开放和诚实的沟通对你的机器人也很重要。
虽然标准的元强化学习的设置利用了不同问题（环境和任务对）之间的共享结构，但它不能捕获同一环境中不同任务之间的共享结构。确切的来说, 在一次实验中的所有片段都是固定的,为了执行一个新任务（例如，做一顿新饭），智能体需要另一个探索片段，即使底层环境（如厨房）保持不变。取而代之的是，一个智能体在一个探索片段之后，能够执行许多任务。例如，在探索厨房找到任何配料后，一个理想的机器人厨师将能够烹调任何涉及这些配料的饭菜，而在标准元强化学习环境中训练的智能体只能做一顿饭。

本文插图
按照标准元强化学习设置训练的机器人厨师晚餐安排
这两个方面可以掩盖元探索问题，即如何最佳地使用探索片段，因为前者需要不必要的探索来推断任务，而后者只需要智能体探索来发现与单个任务相关的信息。虽然直觉上，智能体应该花费探索片段来收集有用的信息，以供以后的执行事件使用，但在许多情况下，当处理简单的任务时最优探索会崩溃。例如，智能体只能发现任务是通过成功地烹调比萨饼并获得积极的奖励来烹调比萨饼，但在未来的执行片段中却一次又一次地做同样的事情。这会让探索情节几乎毫无用处。
基于指令的元强化学习。为了使元强化学习具有更好的现实意义，我们提出一种新的称为基于指令的元强化学习，这种方法将解决了上边的两个方面的问题，(i)给智能体提供一个指令(例如，制作比萨或者one-hot编码) ，这个指令在执行阶段指定了特定的任务。 (ii)在执行阶段通过提供不同的指令更换任务。例如，在工厂的不同厨房进行元训练后，机器人厨师可以在一个单独的安装阶段（探索片段）后，在新的家庭厨房中烹饪人类指定的许多不同的饭菜。

本文插图
基于指令的meta-RL：改变每一个执行事件的任务通过指令传递给智能体。在试验中，环境仍然保持不变。
无奖励自适应。在标准的元强化学习设置中，为了推断任务智能体需要在探索期间进行奖励观察。然而，通过接收在IMRL中指定任务的指令，个好处是代理不再需要观察奖励来适应新的任务和环境。具体地说， IMRL支持无奖励适应，在元训练期间，智能体在执行阶段使用奖励观察来学习解决任务，但在探索阶段不观察奖励。在元测试期间，代理从不观察任何奖励。这使我们能够对真实世界的部署情况进行建模，由于在这种真实世界情况下，收集奖励监督非常昂贵。例如，机器人厨师最好能够适应家庭厨房，而不需要任何人的监督。
IMRL通用吗？重要的是, 把指定设置为空就退化为标准的元强化学习设置. IMRL通用吗？重要的是，把指定设置为空就退化为标准的元强化学习设置。换句话说，标准的元强化学习就是IMRL的一种特殊情况，在这种情况下，使用者的希望是固定的，并且使用者不给出任何指令。因此IMRL的算法也可以直接应用到标准的元强化学习中，反之亦然。
结果

本文插图
稀疏奖励三维视觉导航。在我们论文中的一个实验中，我们在一个是稀疏奖励三维视觉导航问题组中评估DREAM ，这个问题在2020年由Kamienny等人提出，我们在这个问题中引入视觉信号和更多的物体来世的这个问题变得更难。我们使用IMRL无奖励适应的设置。在执行片段中，智能体收到一个指向目标的指令，一个球，一个块障碍块者一个钥匙，智能体从障碍的另一侧开始执行过程，并且必须绕着障碍物走一圈，阅读标志（用黄色突出显示），在问题的两个版本中，标识要么指定到对象的蓝色或红色版本。智能体接收80x60 RGB图像作为观察，可以向左或向右或向前移动。执行正确的对象会得到+1的奖励，而去错误的对象会得到-1的奖励。

技术编程探索与执行：通过元强化学习分解实现无奖励自适应( 三 )

推荐阅读

「特种兵」现实版的“士兵突击”：他打败欧美13支特种兵，获2次个人一等功

高考|高考试卷一公布，就知道原来初中这么重要，扎实基础按这四点做起

时尚|赌王葬礼：原配家成员打扮最随意，有人红头发有人穿背心，究竟哪来的底气？

花同学爱拍照|1.78m美女的牛仔优雅风穿搭，腿长一米不是梦

黎贝卡的异想世界|谁说鼻子塌就不好看了！她们刷新了我对鼻子美的认知

涂涂画画就能和阿尔法蛋互动游戏，发散孩子思维，轻轻松松学编程

山西逾68万名学生受益农村义务教育营养改善计划

淘宝|提前过双11？淘宝突然崩了引热议官方回应

荣耀手机|6400万广角长焦微距四摄，8+128GB+40W华为中端机已降至2099

吆唱娱乐菌：somi迷之自信成全申宥娜的幸运

『手机大魔王』小米新系统引发恐慌，如果系统不安全，你还会继续用吗？

美国|确诊病例上升100万仅用17天，美国专家反思疫情应对

Sora到底怎么样？第一批试用者这样说！

井冈翠绿茶叶传说典故,井冈翠绿

陈萌|陈萌自曝被闺蜜劝分，为朱小伟跟其断绝来往，称防火防盗防闺蜜

功夫红茶喝了能减肥吗,姜红茶能减肥吗

itMode|马丁靴＋裙子，马丁靴＋工装裤：又酷又撩，时髦炸了！

科技天天侃华为无奈接受现实，后路还有一条，雪上加霜！联发科突然宣布

【北京办公窗帘】北京办公窗帘制作公司哪个好

娱乐掮客|前面一美女点了一碗水饺。，幽默笑话：在快餐店排队