技术编程探索与执行:通过元强化学习分解实现无奖励自适应


英语原文:Explore then Execute: Adapting without Rewards via Factorized Meta-Reinforcement Learning
翻译:雷锋字幕组(小哲)
技术编程探索与执行:通过元强化学习分解实现无奖励自适应
本文插图
比家务活更有成就感的活动 。
没有人喜欢家务 一 我们可以制造机器人来帮我们做这些家务吗?例如做饭 。训练执行各种任务的智能体的一个通常范式就是针对每个特定的任务利用强化学习的方法训练一个单独的智能体 , 可是在人们的家中利用强化学习的方式从头开始训练一个智能体将会完全失败 , 因为这(训练过程)将会导致许多的灾难(例如厨房火灾) , 而且采用强化学习的方式从头开始训练一个智能体需要来自每个人大量的监督 , 从而对机器人成功做出一顿饭给出奖励 , 并且这也会花费大量的时间(从头学习每一个简单的任务都需要强化学习智能体数百万次尝试) 。
相反 ,理想的做法是 , 如果一个机器人首先在机器人厨师工厂中首次训练完成之后 , 我们就可以训练它使其能够快速适应各种各样的家庭厨房 。 直观地说 ,这应该是可能的 ,因为不同的任务和环境都拥有大量相似结构(例如 ,在一个厨房里做比萨饼类似于在另一个厨房里做汉堡包) ,这可以使学习每一项任务变得更容易和更有效率 。
幸运的是 , 在对许多相似的任务进行了第一次训练之后 , 元强化学习寻找的确切目标是通过对新任务很少的交互来训练智能体使其适应新任务,那么, 为什么今天没有机器人在我们的厨房做饭呢? 为了回答这个问题, 我们将把注意力转向元探索的问题: 如何最好的利用这些很少的交互来探索新的任务. 例如, 为了适应一个新的厨房, 一个机器人厨师理想的情况下应该花很少的互动来探索新厨房来寻找配料(烹饪原料), 这允许它能够作出一顿饭(解决这个任务). 在这篇博文中, 我们将讨论并解决关于的元探索的两个关键挑战, 这两个挑战让人类留在厨房(意思就是机器人不能正常工作) 。 第一, 我们将展示现有的元强化学习方法存在鸡和蛋耦合的难题: 如果机器人已经知道如何做饭的话, 那么学习探索发现烹饪原料只能帮助机器人准备这顿饭, 但是机器人只有知道了原料在哪里,它才能学会做饭.为了避免学习探索与学习执行(解决任务)的循环依赖问题, 我们提出一个目标来让智能体独立的学习这两个过程 。 第二, 我们也会发现, 标准的元强化学习的问题设置希望机器人能够通过试错作出正确的饭菜,甚至没有告诉机器人做什么饭, 这不必要的使元探索的问题变复杂,为了避免这个问题, 我们提出一个基于指令的元强化学习方法, 在这种方法中,机器人将会收到特定做什么饭的指令 。
【技术编程探索与执行:通过元强化学习分解实现无奖励自适应】
技术编程探索与执行:通过元强化学习分解实现无奖励自适应
本文插图
标准元强化学习设置
在开始之前, 我们回顾一下标准元强化学习的问题讨论, 在元强化学习中,一个智能体(例如一个机器人厨师)需要在不同的环境(不同的厨房)和不同的任务(不同的饭菜)中进行训练, 然后需要在新的环境和新的任务中进行元测试, 在面对一个新环境和一个新任务时,在真正开始执行任务之前, 智能体需要花费一段时间探索,来收集必要的信息(例如, 定位配料的位置),, 然后在执行任务的过程中,智能体需要完成这个任务(例如作出一顿饭) 。
在更正式的语言中 , 标准meta-RL考虑了一系列问题 , 其中每个问题确定了一个奖励函数\mathcal{R}\muRμ(例如 , 烹调一个比萨饼)和转换交互的场景(例如 , 厨房), 使用Duan等人2016年的术语 , 我们将一个试验定义为同一问题中的几个片段, 第一个阶段是探索片段, 在这个片段中智能体收集信息并且不需要获得最大回报. 所有接下来的片段时执行阶段, 在这个阶段中,智能体需要完成这个任务,其目标是在元测试试验的执行阶段 , 即在元训练期间的许多试验中进行第一次训练之后 , 最大限度地获得回报 。


推荐阅读