「」谷歌与DeepMind合作释出Dreamer 可透过想像力学习行为
谷歌(Google)与DeepMind合作研发的Dreamer是一种增强学习代理 , 能够预测模型状态的序列 , 学习较长远行为(Long-sighted) , 且利用图像输入 , Dreamer还能解决连续控制任务 , 应付需要反应、远见、空间感知和场景理解的操作 。
人工智能(AI)的增强学习研究正蓬勃发展 , 增强学习无模型方法可以透过反复试错 , 学习预测成功的行动 , 使得AI能够在即时战略游戏中打赢人类 。但据香港IDC新天域互联获悉 , 增强学习需要代理人与环境进行大量互动之后 , 才能达到良好成效 , 这同时也限制了将其应用在现实世界中的机会 , 因为在现实世界中出错 , 可能导致不可弥补的损失 。
文章图片
文章图片
比起无模型增强学习 , 基于模型的增强学习方法可以学习精简化的环境模型 , 使代理能够预测潜在行动序列的结果 , 并在各种假设情况下做出反应 , 进而减少为实现目标 , 所需要进行反复试错次数 。
现在谷歌与DeepMind的Dreamer是一种增强学习代理 , 透过经训练过的世界模型所提供的潜在想像力 , 帮助代理解决长时间任务 , 也就是说 , Dreamer会预测模型状态的序列 , 学习较长远的行为 。Dreamer由3个典型程序构成 , 首先是学习世界模型 , 接着是透过世界模型 , 从预测中学习行为 , 第三个程序则是执行在环境中学习的行为 , 以收集新的经验 。
在学习世界模型的部分 , Dreamer利用Google之前开发的PlaNet世界模型 , 该模型根据输入的图像 , 计算出一系列压缩模型状态序列来预测结果 , 这些模型状态指的是 , 对预测未来结果有帮助的概念 , 像是物件的类型丶位置和物件与周围环境的相互作用 , Google称这个能计算未来的能力为想像力 。
另一个Dreamer重点在于高效率学习行为 , 利用反向传播(Backpropagation)演算法来解决代理短视近利的问题 , 使世界模型能有效地学习行为 。
【「」谷歌与DeepMind合作释出Dreamer 可透过想像力学习行为】整体来说 , Dreamer在20个连续控制任务基准测试中 , 在效能、数据效率和计算时间都突破过去水准 。谷歌指出 , 他们利用世界模型的预测序列 , 就能让代理学习行为 , 不仅以图像输入解决视觉控制任务 , 且效能超越过去的无模型方法 。在Atari游戏测试上 , Dreamer也能良好地掌握离散动作 , 和存在多个物件得3D环境的多样化场景 。
推荐阅读
- 「IT之家」对标Apple Card:谷歌拟推Google Card借记卡
- 华为Mate30:华为宣布!P40基本已去谷歌!外媒:华为P40去谷歌依然是顶级旗舰
- 大型机@IBM危险了!谷歌云收购大型机公司
- 【抚州】重磅!临川区人民政府、抚州移动与万向新元数字经济暨5G战略合作签约仪式举行
- 「全媒体聚焦」要和高通说再见了,谷歌宣布一大消息,华为又将迎来对手
- 『谷歌』外泄谍照显示谷歌拟推Google Card借记卡
- 【语音】Siri不够聪明,再给它一双眼吧!CMU与苹果合作,摄像头让AI助手更精确
- 『怀宁』怀宁县与安徽联通签署战略合作协议
- ##发力智慧商业 云从科技与红星云计算达成战略合作
- 『谷歌』Google Pixel 4系列手机即日起支持双卡双待