『』谷歌开源RL智能体Dreamer,仅靠图像学习从机器人到Atari控制策略

选自Google AI Blog
机器之心编译
机器之心编辑部还记得曾经 MBRL 的 SOTA——PlaNet 吗?谷歌最近又出了一个它的改进版(已被 ICLR 2020 接收)
『』谷歌开源RL智能体Dreamer,仅靠图像学习从机器人到Atari控制策略
文章图片

文章图片

智能体如何选择动作来实现其目标 , 这方面的研究已经取得了快速的进展 , 这在很大程度上归功于强化学习(RL)的使用 。用于强化学习的无模型方法通过试错来学习预测成功的动作 , 这类方法使得 DeepMind 的 DQN 算法能够玩雅达利游戏 , AlphaStar 在星际争霸 II 中击败世界冠军 , 但其需要大量的环境交互 , 由此限制了它们在真实世界场景中的应用 。
与无模型 RL 方法不同 , 基于模型的 RL 方法需要额外地学习环境的简化模型 。这类模型让智能体能够预测潜在动作序列的结果 , 在假想场景中进行训练 , 从而在新情境中做出明智的决策 , 最终减少实现目标所必需的试错次数 。
在过去 , 学得精确的模型并利用它们学习成功的行为比较具有挑战性 。但近来的一些研究 , 如谷歌提出的深度规划网络(Deep Planning Network , PlaNet) , 通过从图像中学习精确的模型推动了该领域的进展 。但还需注意 , 基于模型的方法依然受到无效或计算代价高昂的规划机制掣肘 , 限制了它们解决复杂任务的能力 。
今天 , 在最新的博客中 , Google AI 与 DeepMind 联合推出了 Dreamer , 这是一种从图像中学习模型并用它来学习远见性(long-sighted)行为的 RL 智能体 。通过模型预测的反向传播 , Dreamer 能够利用它学得的模型高效地展开行为学习 。通过从原始图像中学习计算紧凑模型状态 , Dreamer 仅使用一块 GPU 即可以高效地从预测到的并行序列中学习 。
实验表明 , 在包含 20 个以原始图像作为输入的连续控制任务基准测试中 , Dreamer 在性能、数据效率和计算时间三个方面均取得新的 SOTA 结果 。Google AI 也已经开源了 Dreamer 的源代码 。论文地址:https://arxiv.org/pdf/1912.01603.pdfGitHub 博客地址:https://dreamrl.github.ioGitHub 项目地址:https://github.com/google-research/dreamer
Dreamer 的工作原理
Dreamer 由基于模型强化学习方法中的三个典型流程组成:学习真实环境的模型从模型的预测中学习动作策略在真实环境中执行习得的策略 , 并收集环境产生的新数据
为学习到良好的策略 , Dreamer 使用一个估值网络来考虑规划范围之外的奖赏值 , 同时使用一个策略网络来高效地计算相应动作 。以上三个流程(可各自并行执行)不断循环迭代 , 直到智能体实现其在环境中的目标 。
『』谷歌开源RL智能体Dreamer,仅靠图像学习从机器人到Atari控制策略
文章图片

文章图片

Dreamer 的三个工作流程 。模型从过去收集到的数据中进行学习 。智能体从模型的预测中学习出一个预测未来奖赏的估值网络和一个选择动作的策略网络 。策略网络被用来与真实环境进行交互 。
模型学习
Dreamer 使用了 PlaNet 中的模型 , 该模型基于一系列从图像输入计算而来的紧凑模型状态预测之后的状态 , 而不是直接使用当前获得的图像预测下一时刻的图像 。这个模型能够学会自动地产生诸如物体类型、物体位置以及物体与周围环境相互作用这类具有象征性概念的模型状态 , 这些象征性概念有助于其预测未来状态 。从智能体数据集中采样一系列过去的图像、动作以及奖赏值数据 , Dreamer 的模型学习过程如下图所示:
『』谷歌开源RL智能体Dreamer,仅靠图像学习从机器人到Atari控制策略
文章图片


推荐阅读