「」谷歌与DeepMind合作释出Dreamer 可透过想像力学习行为

谷歌（Google）与DeepMind合作研发的Dreamer是一种增强学习代理，能够预测模型状态的序列，学习较长远行为（Long-sighted），且利用图像输入， Dreamer还能解决连续控制任务，应付需要反应、远见、空间感知和场景理解的操作。
人工智能（AI）的增强学习研究正蓬勃发展，增强学习无模型方法可以透过反复试错，学习预测成功的行动，使得AI能够在即时战略游戏中打赢人类。但据香港IDC新天域互联获悉，增强学习需要代理人与环境进行大量互动之后，才能达到良好成效，这同时也限制了将其应用在现实世界中的机会，因为在现实世界中出错，可能导致不可弥补的损失。

文章图片

文章图片

比起无模型增强学习，基于模型的增强学习方法可以学习精简化的环境模型，使代理能够预测潜在行动序列的结果，并在各种假设情况下做出反应，进而减少为实现目标，所需要进行反复试错次数。
现在谷歌与DeepMind的Dreamer是一种增强学习代理，透过经训练过的世界模型所提供的潜在想像力，帮助代理解决长时间任务，也就是说， Dreamer会预测模型状态的序列，学习较长远的行为。Dreamer由3个典型程序构成，首先是学习世界模型，接着是透过世界模型，从预测中学习行为，第三个程序则是执行在环境中学习的行为，以收集新的经验。
在学习世界模型的部分， Dreamer利用Google之前开发的PlaNet世界模型，该模型根据输入的图像，计算出一系列压缩模型状态序列来预测结果，这些模型状态指的是，对预测未来结果有帮助的概念，像是物件的类型丶位置和物件与周围环境的相互作用， Google称这个能计算未来的能力为想像力。
另一个Dreamer重点在于高效率学习行为，利用反向传播（Backpropagation）演算法来解决代理短视近利的问题，使世界模型能有效地学习行为。
【「」谷歌与DeepMind合作释出Dreamer 可透过想像力学习行为】整体来说， Dreamer在20个连续控制任务基准测试中，在效能、数据效率和计算时间都突破过去水准。谷歌指出，他们利用世界模型的预测序列，就能让代理学习行为，不仅以图像输入解决视觉控制任务，且效能超越过去的无模型方法。在Atari游戏测试上， Dreamer也能良好地掌握离散动作，和存在多个物件得3D环境的多样化场景。

「」谷歌与DeepMind合作释出Dreamer 可透过想像力学习行为

推荐阅读

#央视新闻#“我可以上！但请别告诉我妈妈……”

我从最开始对身边的朋友说话比较损到现在更倾向于说别人比较喜欢听的话，是不是我变得虚伪了

【银耳】五月，不吃肉也要吃它，铁是菠菜的20倍，还清肠刮油，拌一拌就好

夏季白癜风患者饮食有哪些禁忌

陈奕迅欲来广州开演唱会却无歌可唱，网友纷纷希望对他网开一面

房价都上好多万了，吃个饭还这么便宜，合理吗

中国妇女报|《假面饭店》：那些卑微的小人物

海陆空天惯性世界|俄罗斯警告：美国页岩油都破产了，白俄罗斯力推本国石油开采项目

贝鲁特|贝鲁特大爆炸后,黎巴嫩总统:政府已经辞职,我不可能再辞

成品油|油价降了！加满一箱将少花…

吃鸡游戏|“吃鸡”猝不及防！没有任何提示，商城有1个道具倒计时2天下架！

汉宏智能|总工程师开讲啦！如何搭建智慧工厂的系统架构？

喝绿茶有什么好处,每日饮茶有什么好处

罗本|主帅：罗本复出首秀得再等等，他目标是首轮出战埃因霍温

一起读历史|黄永胜出任志愿军副司令，为什么临时被换？，1950年

广东汕尾碣石摩托车市场~~摩托车里的碣石是什么意思?

最适合中秋节的古诗小学生最适合中秋节的古诗

考上了清华、复旦、北外，但这些“贵州考生”因违规被取消学籍

敏感肌肤|抗敏护肤品有哪些品牌好修复敏感肌肤的大品牌护肤品推荐

宁德时代|电动车补能市场迎大变局！万亿宁王入场请吃“巧克力”