技术编程探索与执行:通过元强化学习分解实现无奖励自适应( 四 )


如下图所示, DREAM在这项任务中学会了近乎最佳的探索和执行行为 。 在左边 , DREAM在探索的一段时间里绕着障碍物走着 , 看上面写着蓝色的标牌 。 在右边 , 在一个执行片段中 , DREAM收到了一个走到钥匙的指令 。 因为在探索的阶段 DREAM已经读到写着蓝色的标志 , 所以它走向蓝色键 。
DREAM学习到的行为
探索
执行(走到钥匙)
对比 。 广义上来说 ,以前的元增强学习方法分为两个组:(i)端到端的方法 ,这种方法基于执行阶段的奖励优化探索与执行过程 。(ii)解耦的犯法 , 这种方法利用单独的目标单独优化探索与执行过程 , 我们对比DREAM方法和这两类中目前最优的方法 ,在端到端训练的类别中 , 我们对比RL^2212 ,经典的端到端方法,它根据过去的状态和奖励观察的整个序列来学习一个周期性的策略 。 VariBAD3 ,该方法在递归策略的隐状态中增加了辅助损失函数 , 以预测当前问题的收益和动态 。 这可以看作是学习信念状态4 , 它是对过去所有观察的充分总结 。 IMPORT5 , 这种方法额外的利用问题的属性来帮助学习执行行为 。
除此之外, 在解耦类别中 , 我们对比:
PEARL-UB , 这是PEARL6的上界. 我们利用问题的真实后验分布 , 分析性地计算出由特定于问题的最优策略所获得的预期回报 。
定量结果 。下边我们打印出所有方法的收益 。对比实现了几乎最优结果的DREAM ,我们发现端到端训练的方法从来没有读取到标志 ,并且为了防止收到负的奖励 ,结果就是错过了所有的物体 。即使他们被允许在探索情节中观察奖励(虚线) , 这种情况也会发生 。 因此 , 它们没有得到回报 , 这表明了耦合问题 。
另一方面 ,尽管解耦类别的方法避免了耦合问题 ,单是有互目标没有得到最优的探索策略 。例如尽管可以获得特定问题的真实后验概率分布 ,汤普森采样方法(PEARLUB)没有实现最优的奖励 , 要了解这一点 , 回想一下Thompson抽样是通过从后验分布中抽样一个问题并遵循该问题的执行策略来探索的 。 由于最优执行策略直接指向正确的对象 , 并且从不读取符号 , 因此Thompson抽样在探索过程中从不读取符号 。相比之下 , DREAM的一个很好的特性是 , 只要有足够的数据和足够的策略类 , 它就可以从理论上学习最优的探索和执行 。
技术编程探索与执行:通过元强化学习分解实现无奖励自适应
本文插图
在探索过程中有(虚线)和没有(实线)奖励的训练曲线 。 只有梦才能读懂标志 , 解决任务 。 而且它在探索过程中不需要奖励就可以做到!
额外的结果 , 在我们的论文中 , 我们也在额外的简爱哦学问题中评估了DREAM , 设计这些问题来回答下列问题:DREAM可以高效的探索发现这些仅仅在执行过程中需要的信息吗?DREAM对于新的指令与环境能够很好的泛化吗?除了基于指令的元强化学习之外 , DREAM也可以在标准的元强化学习中获得提升的结果吗?
大体上来说 , 对于以上问题 , 答案是肯定的 , 你可以从我们的论文中获得更加细节性的结果 。
总结
总结 , 在这篇博文中 ,我们解决了元探索的难题:在一个新环境中为了执行一个任务如何更好的收集信息 。为了做这个工作 ,我们测试并且解决两个主要的关键挑战 。 首先, 我们看到了现有的元强化学习方法如何通过端到端优化探索和执行来最大限度地获得回报 , 但却成为了鸡和蛋问题的牺牲品 。 如果智能体还没有学会探索 , 那么它就无法收集学习解决任务(例如做饭)所需的关键信息(例如 , 配料的位置) 。 另一方面 , 如果智能体还没有学会解决任务 , 那么就没有学习探索的信号 , 因为无论如何 , 它都无法解决任务 。 我们通过提出一个解耦的目标(DREAM)来避免这个问题循环 , 即学习独立地探索和学习解决任务 。 第二 , 我们看到了标准的元强化学习设置如何捕捉适应新环境和新任务的概念 , 但要求智能体不必要地去探索来推断任务(例如 , 做什么饭) , 并且不利用相同环境中不同任务之间的共享结构(例如 , 在同一个厨房烹饪不同的饭菜) 。 我们通过提出基于指令的meta-RL(IMRL)来解决这个问题 , IMRL为智能体提供了一条指定任务的指令 , 并要求智能体探索和收集对许多任务有用的信息 。


推荐阅读