技术编程探索与执行:通过元强化学习分解实现无奖励自适应( 二 )
解耦元强化学习中的无奖励探索与执行(DREAM)
鸡和蛋的耦合问题 。 元探索问题的通常的方案(Wang et al., 2016, Duan et al., 2016)就是优化一个循环的策略, 这个策略基于执行事件的奖励进行端到端的探索与训练. 我们希望能在重复策略的隐藏状态下 , 捕捉到探索事件中所学的信息 , 然后这些信息将对执行事件有用. 可是这会导致一个鸡和蛋的耦合问题,这就是学习很好的探索行为需要已经学到很好的执行行为,反之也是这样这就阻碍了这种方法的学习 。
例如, 如果一个机器人厨师不能发现厨房中配料的位置(糟糕的探索), 然后它可能就不能学习如何做饭(糟糕的执行). 另一方面, 如果一个机器人不知道如何做的饭(糟糕的执行), 那么无论探索过程如何做,都不能够成功的做出一顿饭.这就使得探索过程充满了挑战. 由于机器人刚开始训练时既不能探索也不能做饭, 将会陷入一个局部极小值,并且很难学习 。
本文插图
耦合难题 。哪一个先开始:鸡(好的探索)还是蛋(好的执行)
利用DREAM避免这个耦合难题. 为了放置鸡和蛋耦合的难题, 我们提出了一个方法打破在学习探索与学习执行行为二者的这种循环依赖, 这种方法称为DREAM 。 直觉上 , 通过尝试恢复执行指令所需的信息 , 可以学习到良好的探索 。 因此 , 从高层次上讲 , DREAM包括两个主要步骤:1)同时学习独立于探索的执行策略 , 并了解执行所需的信息;2)学习一个探索策略来恢复该信息 。
本文插图
为了回答鸡和蛋的问题, DREAM制作了它自己的蛋并且然后鸡出来了
具体来说, 第一步, 我们基于问题标识符\mu , 训练一个执行策略 \pi^\text{exec}πexec, 在做饭的例子中 ,可能要么直接确定厨房的属性(例如墙的颜色或者配料的位置) , 要么直接给厨房提供唯一的独特的标识符(例如one-hot编码)。这种问题标识符(直接或者不直接 ) 编码了所有必要的信息去解决厨房中的这种问题 ,允许执行策略独立于探索过程进行学习 , 这种方法避免了耦合问题 。同时 , 我们在第一步中的目标是只识别执行指令所需的信息 , 而问题标识符也可能编码无关的信息 , 例如墙颜色 。 为了移除这些冗余的信息 , 我们应用一个信息瓶颈的策略来获得瓶颈操作后的表示ZZ , 我们使用zz来训练一个探索的策略\pi^\text{exp}πexp 。
在第二步中 , 一旦我们获得了一个瓶颈表示zz(理想情况下只包含执行指令所需的信息) , 我们就可以训练一个探索策略\pi^\text{exp}πexp来恢复探索事件中的信息 。 为此 , 我们推出探索策略以获得一个片段\tauτ , 然后根据该片段对zz中包含的信息进行编码的程度来奖励该策略 。 粗略地说 , 这个奖励是瓶颈表征zz和片段\tauτ之间的相互信息I(z;\tau)I(z;τ) 。
DREAM元测试
在元训练期间 , 通过简单地为每个问题分配一个唯一的one-hot编码 , 问题标识符\muμ很容易提供 , 但在元测试期间通常不可用或没有帮助(例如 , 如果\muμ是一个全新的one-hot编码) 。 这似乎很令人担忧 , 因为在元训练期间 , zz上的执行策略条件需要知道\muμ 。 但是 , 由于探索策略经过训练 , 可以生成包含与zz相同信息的探索轨迹\tauτ , 因此我们可以在元测试时通过推出探索策略直接将\tauτ替换为zz 。 详情请看我们的论文!
基于指令的元强化学习(IMRL)
改进标准meta-RL设置 。 第二个元探索挑战涉及元强化学习设置本身 。 虽然以上标准的meta-RL设置是一个有用的公式 , 但我们观察到两个方面可以使得元强化学习变得更加有现实意义 。 首先 , 标准的设置需要智能体依据获得的奖励自己推断任务(例如,做什么饭) , 这是没有必要并且非常不高效的. 相反, 在现实情况下 , 使用者将会告诉之恩功能题他们需要什么 。
推荐阅读
- 前瞻网|华大推15分钟新冠快速检测盒,前瞻医疗器械产业全球周报第47期:苹果被起诉窃取血氧监测专利技术
- 极酷数码客|价格很有优势,雷军刚发布行业领先技术!小米新机紧接被曝光
- 麦田军事观察|印度抨击法国公司拒绝转让核心技术啥意义?不知花钱买不来现代化
- 沈潮汐|扬言基建技术超越中国,2天后愣住了,印度3天时间搭好一座桥
- 量子科技,爆发!有项关键技术中国已领先世界
- 歼-20|又一国看上国产战机,关键部位采用歼-20技术,一口气要采购40架
- 一品汽车|“备胎上位”道阻且长,氢燃料电池技术储备不足
- 追梦格林|追梦格林谈球场心态:心态就是一项技术,我给不了杜兰特我的心态
- awesome科技|苹果12都没办法,小米宣布发布80W无线充电!这技术可真绝
- CECBC区块链专委会|第19届亚运会门票采用区块链技术防伪