技术编程探索与执行：通过元强化学习分解实现无奖励自适应 |智能机器人|

英语原文：Explore then Execute: Adapting without Rewards via Factorized Meta-Reinforcement Learning
翻译：雷锋字幕组（小哲）

本文插图
比家务活更有成就感的活动。
没有人喜欢家务一我们可以制造机器人来帮我们做这些家务吗？例如做饭。训练执行各种任务的智能体的一个通常范式就是针对每个特定的任务利用强化学习的方法训练一个单独的智能体，可是在人们的家中利用强化学习的方式从头开始训练一个智能体将会完全失败，因为这（训练过程）将会导致许多的灾难（例如厨房火灾），而且采用强化学习的方式从头开始训练一个智能体需要来自每个人大量的监督，从而对机器人成功做出一顿饭给出奖励，并且这也会花费大量的时间（从头学习每一个简单的任务都需要强化学习智能体数百万次尝试）。
相反，理想的做法是，如果一个机器人首先在机器人厨师工厂中首次训练完成之后，我们就可以训练它使其能够快速适应各种各样的家庭厨房。直观地说，这应该是可能的，因为不同的任务和环境都拥有大量相似结构（例如，在一个厨房里做比萨饼类似于在另一个厨房里做汉堡包），这可以使学习每一项任务变得更容易和更有效率。
幸运的是，在对许多相似的任务进行了第一次训练之后，元强化学习寻找的确切目标是通过对新任务很少的交互来训练智能体使其适应新任务,那么, 为什么今天没有机器人在我们的厨房做饭呢? 为了回答这个问题, 我们将把注意力转向元探索的问题: 如何最好的利用这些很少的交互来探索新的任务. 例如, 为了适应一个新的厨房, 一个机器人厨师理想的情况下应该花很少的互动来探索新厨房来寻找配料(烹饪原料), 这允许它能够作出一顿饭(解决这个任务). 在这篇博文中, 我们将讨论并解决关于的元探索的两个关键挑战, 这两个挑战让人类留在厨房(意思就是机器人不能正常工作) 。第一, 我们将展示现有的元强化学习方法存在鸡和蛋耦合的难题: 如果机器人已经知道如何做饭的话, 那么学习探索发现烹饪原料只能帮助机器人准备这顿饭, 但是机器人只有知道了原料在哪里,它才能学会做饭.为了避免学习探索与学习执行(解决任务)的循环依赖问题, 我们提出一个目标来让智能体独立的学习这两个过程。第二, 我们也会发现, 标准的元强化学习的问题设置希望机器人能够通过试错作出正确的饭菜,甚至没有告诉机器人做什么饭, 这不必要的使元探索的问题变复杂,为了避免这个问题, 我们提出一个基于指令的元强化学习方法, 在这种方法中,机器人将会收到特定做什么饭的指令。
【技术编程探索与执行：通过元强化学习分解实现无奖励自适应】

本文插图
标准元强化学习设置
在开始之前, 我们回顾一下标准元强化学习的问题讨论, 在元强化学习中,一个智能体(例如一个机器人厨师)需要在不同的环境(不同的厨房)和不同的任务(不同的饭菜)中进行训练, 然后需要在新的环境和新的任务中进行元测试, 在面对一个新环境和一个新任务时,在真正开始执行任务之前, 智能体需要花费一段时间探索,来收集必要的信息(例如, 定位配料的位置),, 然后在执行任务的过程中,智能体需要完成这个任务(例如作出一顿饭) 。
在更正式的语言中，标准meta-RL考虑了一系列问题，其中每个问题确定了一个奖励函数\mathcal{R}\muRμ（例如，烹调一个比萨饼）和转换交互的场景（例如，厨房）, 使用Duan等人2016年的术语，我们将一个试验定义为同一问题中的几个片段, 第一个阶段是探索片段, 在这个片段中智能体收集信息并且不需要获得最大回报. 所有接下来的片段时执行阶段, 在这个阶段中,智能体需要完成这个任务,其目标是在元测试试验的执行阶段，即在元训练期间的许多试验中进行第一次训练之后，最大限度地获得回报。

技术编程探索与执行：通过元强化学习分解实现无奖励自适应

推荐阅读

公交车|这一脚，太暖心……

历史劲爆点：缘分与桃花情意绵绵，主动去挽回幸福爱情的4大生肖！，两周之内

军武阅读：能造几个航母？，如果我国每人出100块

马来西亚|马来西亚出现超强变异毒株：传染性是原来10倍，现有疫苗或对其无效

国际茶价走高印度茶出口产量均呈负增长

蓝科技网|世界第一个AI图像传感器又是索尼制造

洋葱|全美洋葱中毒事态进一步扩大

BAT|没错，互联网进入到了下半场

中国历史上第一位女诗人，以女子身拯救母国于存亡之际

烹饪|洋葱焖猪排，快手焗鱼，涝汁凉拌金针菇，干煸菜花的做法

陈凯歌|原创《演员2》郭敬明又任性？跟李成儒又舌战，陈凯歌飙英文表达不满

“欢乐春节·中国印象”演出在希腊雅典大学举办

煤气炉什么牌子好(什么牌子的煤气灶好用又省气)

小熊议情感|“逆商，让你的人生更高级”，原创

健康王医师|排毒养颜，延缓衰老，脸部皮肤白皙光滑，每天晚上吃3种食物

用文艺照进现实《故事里的中国》第二季致敬新时代最闪亮的星

豪门明星|男网红晒账单炫富！买110万铂金包订300万家具，打扮女性化惹争议

上岸人的独白|清华重返榜首，哈工大第六，复旦跌至第十，双一流大学评选收官

|接连“盯上”十几家企业，卖冰箱也不放过？，美国又开始“作妖”

win10系统如何共享打印机共享