『』谷歌开源RL智能体Dreamer,仅靠图像学习从机器人到Atari控制策略

选自Google AI Blog
机器之心编译
机器之心编辑部还记得曾经 MBRL 的 SOTA——PlaNet 吗？谷歌最近又出了一个它的改进版（已被 ICLR 2020 接收）

文章图片

文章图片

智能体如何选择动作来实现其目标，这方面的研究已经取得了快速的进展，这在很大程度上归功于强化学习（RL）的使用。用于强化学习的无模型方法通过试错来学习预测成功的动作，这类方法使得 DeepMind 的 DQN 算法能够玩雅达利游戏， AlphaStar 在星际争霸 II 中击败世界冠军，但其需要大量的环境交互，由此限制了它们在真实世界场景中的应用。
与无模型 RL 方法不同，基于模型的 RL 方法需要额外地学习环境的简化模型。这类模型让智能体能够预测潜在动作序列的结果，在假想场景中进行训练，从而在新情境中做出明智的决策，最终减少实现目标所必需的试错次数。
在过去，学得精确的模型并利用它们学习成功的行为比较具有挑战性。但近来的一些研究，如谷歌提出的深度规划网络（Deep Planning Network ， PlaNet），通过从图像中学习精确的模型推动了该领域的进展。但还需注意，基于模型的方法依然受到无效或计算代价高昂的规划机制掣肘，限制了它们解决复杂任务的能力。
今天，在最新的博客中， Google AI 与 DeepMind 联合推出了 Dreamer ，这是一种从图像中学习模型并用它来学习远见性（long-sighted）行为的 RL 智能体。通过模型预测的反向传播， Dreamer 能够利用它学得的模型高效地展开行为学习。通过从原始图像中学习计算紧凑模型状态， Dreamer 仅使用一块 GPU 即可以高效地从预测到的并行序列中学习。
实验表明，在包含 20 个以原始图像作为输入的连续控制任务基准测试中， Dreamer 在性能、数据效率和计算时间三个方面均取得新的 SOTA 结果。Google AI 也已经开源了 Dreamer 的源代码。论文地址：https://arxiv.org/pdf/1912.01603.pdfGitHub 博客地址：https://dreamrl.github.ioGitHub 项目地址：https://github.com/google-research/dreamer
Dreamer 的工作原理
Dreamer 由基于模型强化学习方法中的三个典型流程组成：学习真实环境的模型从模型的预测中学习动作策略在真实环境中执行习得的策略，并收集环境产生的新数据
为学习到良好的策略， Dreamer 使用一个估值网络来考虑规划范围之外的奖赏值，同时使用一个策略网络来高效地计算相应动作。以上三个流程（可各自并行执行）不断循环迭代，直到智能体实现其在环境中的目标。

文章图片

文章图片

Dreamer 的三个工作流程。模型从过去收集到的数据中进行学习。智能体从模型的预测中学习出一个预测未来奖赏的估值网络和一个选择动作的策略网络。策略网络被用来与真实环境进行交互。
模型学习
Dreamer 使用了 PlaNet 中的模型，该模型基于一系列从图像输入计算而来的紧凑模型状态预测之后的状态，而不是直接使用当前获得的图像预测下一时刻的图像。这个模型能够学会自动地产生诸如物体类型、物体位置以及物体与周围环境相互作用这类具有象征性概念的模型状态，这些象征性概念有助于其预测未来状态。从智能体数据集中采样一系列过去的图像、动作以及奖赏值数据， Dreamer 的模型学习过程如下图所示：

文章图片

『』谷歌开源RL智能体Dreamer,仅靠图像学习从机器人到Atari控制策略

推荐阅读

汽车网评|蔚来携理想上榜，特斯拉继续一家独大？，7月新能源销量前10出炉

在国外敢穿的衣服为啥到国内不敢再穿

百香果怎么放保鲜袋里面保存百香果怎么放保鲜袋里

|低调细致做自己，自信心十足的星座，不容易走弯路，求职求爱都顺

[疾病早预防]这样“三步走”才是慢乙肝的治疗目标

呼和浩特牛街美食排行榜?呼和浩特最繁华的步行街和商业街?

笑星坊|搞笑GIF开心一刻：心疼这个妹子

冬天红茶的搭配,小青檬红茶的口感

[桂花]春天养桂花，现在注意3个方面，等到初秋开花才会多

我喜欢的一本书《爱的教育》作文四年级?爱的教育这本书是特地献给什么的小学生

盖帽|美媒列出了最有机会入选NBA100巨星的25名球员，姚明有可能吗

典赞|“典赞·2020科普中国”年度分类评选结果出炉，看入围的都有哪些？

渖阳已建立3884个残疾人家庭康复点

长寿花春天浇水的正确方法视频长寿花春天浇水的正确方法

深圳市迷你购迷你狗自动售货机将实现配送服务

SNKRS 官方投票！16 款「詹皇 PE」，哪双市售你说了算！

放飞自我|2017年，被郑恺抛弃的沙滩宝贝程晓玥，现在过得如何？

va屏幕和ips屏幕哪个好

在心理咨询中，可能遇到啥样问题影响心理咨询的进度?

人民网本地站|“藤荷之恋”画展在内蒙古图书大厦展出