『』谷歌开源RL智能体Dreamer,仅靠图像学习从机器人到Atari控制策略( 二 )



文章图片

Dreamer 从过去的经验中学习出一个环境的模型 。Dreamer 使用过去的图像 (o_1–o_3) 和动作 (a_1–a_2) , 计算出一系列紧凑的模型状态(图中以绿色圆圈表示) , 并使用这些状态重构出图像 (?_1–?_3) 以及预测奖赏值 (r?_1–r?_3) 。
使用 PlaNet 模型的优势之一在于其极大地提升了计算效率 , 它通过紧凑的模型状态对未来状态进行预测而不是直接使用图像来预测 。这使得该模型能够仅使用一个 GPU 就可以并行地预测上千个样本序列 。该方法同时也有助于模型的泛化 , 能够实现准确的长序列视频预测 。为了探寻该模型的运行过程 , 研究者通过将紧凑模型状态解码为图像来可视化模型预测序列 。下图显示了 DeepMind Control Suite 与 DeepMind Lab 环境中某一任务的预测情况:
『』谷歌开源RL智能体Dreamer,仅靠图像学习从机器人到Atari控制策略
文章图片

文章图片

使用紧凑模型状态能够实现在复杂环境中的长序列预测 。以上两个序列为智能体之前没有遇到过的情形 。给定 5 个连续的图像作为输入 , 模型能够重建并预测出在这之后 50 步的图像 。
高效的策略学习
以往基于模型的智能体通常使用以下两种方式选择动作 , 一是通过多个模型预测来规划 , 二是用模型取代模拟器以重用现有的无模型方法 。这两种方式都需要很大的计算量 , 并且无法充分利用学得的模型 。此外 , 即使强大的模型也会受限于其能够精确预测的步长 , 这使得以往很多基于模型的智能体存在短视的问题 。Dreamer 通过对其模型预测的反向传播 , 学得对应估值网络与策略网络 , 进而克服了这些限制 。
Dreamer 通过预测状态序列将奖赏值梯度反向传播(在无模型方法中是无法实现的) , 以此能够高效地习得策略网络来预测成功的动作 。这能够让 Dreamer 了解到其动作小幅度更改是如何对未来预测奖赏值产生影响的 , 使得它能够朝着将奖赏值最大化的方向改进其策略网络 。为了在预测范围外考虑奖赏 , 估值网络为每个模型状态的未来累积奖赏值做出估计 。然后将这些奖赏值与估值反向传播以改进策略网络 , 最终选择改进后的动作:
『』谷歌开源RL智能体Dreamer,仅靠图像学习从机器人到Atari控制策略
文章图片

文章图片

Dreamer 从模型预测的状态中学习远见性行为 , 它首先学习每个状态的长期价值(v?_2–v?_3) , 接着通过状态序列将动作反向传播至策略网络 , 进而预测那些生成高奖励和价值的动作 。
Dreamer 与 PlaNet 存在着几方面的不同 。对于环境中的特定情境 , PlaNet 在诸多不同的动作序列预测中搜索最佳动作 。Dreamer 则不同 , 它通过去耦化规划和行动规避了这一计算花销大的搜索过程 。只要在预测序列上训练了它的策略网络 , Dreamer 在无需额外搜索的情况下即可计算与环境进行交互的动作 。此外 , Dreamer 使用估值函数来考虑规划周期外的奖励 , 并利用反向传播进行高效规划 。
算法效果
研究者使用了 20 个不同任务的标准基线对模型进行了测评 。这些任务有连续动作和图像作为输入 。任务包括平衡、捕捉目标以及各种模拟机器人的移动 。
这些任务被设计用来给 RL 智能体施加各种挑战 , 包括预测碰撞的困难性、稀疏的奖励、混乱的动量、小而关联的目标、高自由度以及 3D 条件等 。
『』谷歌开源RL智能体Dreamer,仅靠图像学习从机器人到Atari控制策略
文章图片

文章图片

Dreamer 学习去解决 20 个任务 , 其中 5 个如上图所示 。可视化显示 , 64x64 图像作为智能体从环境中的输入 。


推荐阅读