『』谷歌开源RL智能体Dreamer,仅靠图像学习从机器人到Atari控制策略( 三 )
研究者将 Dreamer 和 PlaNet、A3C、D4PG 等模型进行了对比 。PlaNet 是目前最好的基于模型的智能体 , A3C 则是最好的无模型智能体 , D4PG 则结合了一些无模型强化学习的优势 。基于模型的智能体学习了 500 万帧图像 , 对应了 28 小时的模拟 。无模型智能体学习地更慢 , 需要 1 亿帧图像 , 对应了 23 天的模拟 。
以下为模型性能的对比 , 可以看到 Dreamer 比 D4PG 性能更好 , 而且少了 20 倍的环境交互 。
文章图片
文章图片
在 20 个任务上 , 从性能表现、数据利用效率和计算时间三个方面 , Dreamer 都比 D4PG 和 PlaNet 方法优秀 。
除了在连续控制任务上的实验外 , 研究者还发现了当它被用于离散行为时 , Dreamer 具有良好的泛化能力 。他们采用了雅达利游戏和 DeepMind Lab 级别来进行评价 。
这需要智能体具有互动性和远见性的行为、空间感知能力、以及对于视觉上最不同的场景的理解能力 。结果显示 , Dreamer 能够学习这些具有挑战性的任务 。
文章图片
文章图片
Dreamer 在雅达利游戏上有着成功的表现 。这种测评任务有着以下特征:需要离散动作和有视觉差异大的场景 , 包括对于多个目标的 3D 环境等 。
结论
谷歌的这项研究表明 , 从模型预测的序列中学习行为可以解决图像输入中具有挑战性的视觉控制任务 , 性能也优于先前的无模型方法 。此外 , Dreamer 也表明 , 通过紧凑模型状态的预测序列来反向传播值梯度 , 进而学习行为 , 这种方式非常成功且具有鲁棒性 , 解决了各种连续和离散控制任务 。
研究者认为 , Dreamer 为进一步突破强化学习的限制打下了坚实基础 , 包括实现更好的表示学习、具有不确定性估计的定向探索以及时间抽象和多任务学习等 。
https://github.com/google-research/planet
【『』谷歌开源RL智能体Dreamer,仅靠图像学习从机器人到Atari控制策略】https://arxiv.org/pdf/1811.04551.pdf
推荐阅读
- 「IT之家」对标Apple Card:谷歌拟推Google Card借记卡
- 『小胖说科技』便携、清晰、高亮度,明基E520无线智能投影仪评测
- 【智能家居专家V】轻、快、好,满足这三个字的手机你找到了吗?
- 「运动」让运动更自由,苏宁小Biu智能耳机助你一路前行
- 牡丹江涂鸦智能■智能家居语音控制系统
- 实体@带你一起读《智能社会》:序言前言如果我们允许“如果”后记
- 「智能」360智能家用AI摄像机评测,2K高清夜视仪,360°全彩监控
- 功能:能解决孩子的学习问题吗?牛听听儿童智能熏教机体验!
- 华为Mate30:华为宣布!P40基本已去谷歌!外媒:华为P40去谷歌依然是顶级旗舰
- 「黑猫科技论」360智能家用AI摄像机评测,2K高清夜视仪,360°全彩监控