技术编程探索与执行:通过元强化学习分解实现无奖励自适应( 三 )


技术编程探索与执行:通过元强化学习分解实现无奖励自适应
本文插图
开放和诚实的沟通对你的机器人也很重要 。
虽然标准的元强化学习的设置利用了不同问题(环境和任务对)之间的共享结构 , 但它不能捕获同一环境中不同任务之间的共享结构 。 确切的来说, 在一次实验中的所有片段都是固定的,为了执行一个新任务(例如 , 做一顿新饭) , 智能体需要另一个探索片段 , 即使底层环境(如厨房)保持不变 。 取而代之的是 , 一个智能体在一个探索片段之后 , 能够执行许多任务 。 例如 , 在探索厨房找到任何配料后 , 一个理想的机器人厨师将能够烹调任何涉及这些配料的饭菜 , 而在标准元强化学习环境中训练的智能体只能做一顿饭 。
技术编程探索与执行:通过元强化学习分解实现无奖励自适应
本文插图
按照标准元强化学习设置训练的机器人厨师晚餐安排
这两个方面可以掩盖元探索问题 , 即如何最佳地使用探索片段 , 因为前者需要不必要的探索来推断任务 , 而后者只需要智能体探索来发现与单个任务相关的信息 。虽然直觉上 , 智能体应该花费探索片段来收集有用的信息 , 以供以后的执行事件使用 , 但在许多情况下 , 当处理简单的任务时最优探索会崩溃 。 例如 , 智能体只能发现任务是通过成功地烹调比萨饼并获得积极的奖励来烹调比萨饼 , 但在未来的执行片段中却一次又一次地做同样的事情 。 这会让探索情节几乎毫无用处 。
基于指令的元强化学习 。为了使元强化学习具有更好的现实意义 ,我们提出一种新的称为基于指令的元强化学习 ,这种方法将解决了上边的两个方面的问题 ,(i)给智能体提供一个指令(例如 ,制作比萨或者one-hot编码) , 这个指令在执行阶段指定了特定的任务 。 (ii)在执行阶段通过提供不同的指令更换任务 。例如 , 在工厂的不同厨房进行元训练后 , 机器人厨师可以在一个单独的安装阶段(探索片段)后 , 在新的家庭厨房中烹饪人类指定的许多不同的饭菜 。
技术编程探索与执行:通过元强化学习分解实现无奖励自适应
本文插图
基于指令的meta-RL:改变每一个执行事件的任务通过指令传递给智能体 。 在试验中 , 环境仍然保持不变 。
无奖励自适应 。 在标准的元强化学习设置中 , 为了推断任务智能体需要在探索期间进行奖励观察 。 然而 , 通过接收在IMRL中指定任务的指令 , 个好处是代理不再需要观察奖励来适应新的任务和环境 。 具体地说 , IMRL支持无奖励适应 , 在元训练期间 , 智能体在执行阶段使用奖励观察来学习解决任务 , 但在探索阶段不观察奖励 。 在元测试期间 , 代理从不观察任何奖励 。 这使我们能够对真实世界的部署情况进行建模 , 由于在这种真实世界情况下 , 收集奖励监督非常昂贵 。 例如 , 机器人厨师最好能够适应家庭厨房 , 而不需要任何人的监督 。
IMRL通用吗?重要的是, 把指定设置为空就退化为标准的元强化学习设置. IMRL通用吗?重要的是 ,把指定设置为空就退化为标准的元强化学习设置 。换句话说 ,标准的元强化学习就是IMRL的一种特殊情况 ,在这种情况下 , 使用者的希望是固定的 , 并且使用者不给出任何指令 。因此IMRL的算法也可以直接应用到标准的元强化学习中 ,反之亦然 。
结果
技术编程探索与执行:通过元强化学习分解实现无奖励自适应
本文插图
稀疏奖励三维视觉导航 。 在我们论文中的一个实验中 , 我们在一个是稀疏奖励三维视觉导航问题组中评估DREAM , 这个问题在2020年由Kamienny等人提出 , 我们在这个问题中引入视觉信号和更多的物体来世的这个问题变得更难 。 我们使用IMRL无奖励适应的设置 。 在执行片段中 , 智能体收到一个指向目标的指令 , 一个球 , 一个块障碍块者一个钥匙 , 智能体从障碍的另一侧开始执行过程 , 并且必须绕着障碍物走一圈 , 阅读标志(用黄色突出显示) , 在问题的两个版本中 , 标识要么指定到对象的蓝色或红色版本 。 智能体接收80x60 RGB图像作为观察 , 可以向左或向右或向前移动 。 执行正确的对象会得到+1的奖励 , 而去错误的对象会得到-1的奖励 。


推荐阅读