『人工智能』单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!Bengio参与
鱼羊 发自 凹非寺量子位 报道 | 公众号 QbitAI
雅达利游戏 , 又被推上了强化学习基础问题研究的舞台 。
来自谷歌大脑的最新研究提出 , 强化学习虽好 , 效率却很低下 , 这是为啥呢?
——因为AI遭遇了「灾难性遗忘」!
所谓灾难性遗忘 , 是机器学习中一种常见的现象 。 在深度神经网络学习不同任务的时候 , 相关权重的快速变化会损害先前任务的表现 。
而现在 , 这项图灵奖得主Bengio参与的研究证明 , 在街机学习环境(ALE)的单个任务中 , AI也遇到了灾难性遗忘的问题 。
研究人员还发现 , 在他们提出的Memento observation中 , 在原始智能体遭遇瓶颈的时候 , 换上一只相同架构的智能体接着训练 , 就能取得新的突破 。
单一游戏中的「灾难性干扰」 在街机学习环境(Arcade Learning Environment , ALE)中 , 多任务研究通常基于一个假设:一项任务对应一个游戏 , 多任务学习对应多个游戏或不同的游戏模式 。
【『人工智能』单一任务强化学习遇瓶颈?「灾难性遗忘」的锅!Bengio参与】研究人员对这一假设产生了质疑 。
单一游戏中 , 是否存在复合的学习目标?也就是说 , 是否存在这样一种干扰 , 让AI觉得它既要蹲着又要往前跑?
来自谷歌大脑的研究团队挑选了「蒙特祖玛的复仇」作为研究场景 。
「蒙特祖玛的复仇」被认为是雅达利游戏中最难的游戏之一 , 奖励稀疏 , 目标结构复杂 。
本文插图
研究人员观察到 , CTS模型计算的Rainbow智能体 , 会在6600分的时候到达瓶颈 。 更长时间的训练和更大的模型大小都不能有所突破 。
本文插图
不过 , 只需从这个位置开始 , 换上一只具有相同架构的新智能体 , 就能突破到8000分的水平 。
如此再重置一次 , AI的最高分就来到了14500分 。
本文插图
需要说明的是 , 在换上新智能体的时候 , 其权重设置与初始的智能体无关 , 学习进度和权重更新也不会影响到前一个智能体 。
研究人员给这种现象起了一个名字 , 叫Memento observation 。
本文插图
Memento observation表明 , 探索策略不是限制AI在这个游戏中得分的主要因素 。
原因是 , 智能体无法在不降低第一阶段游戏性能的情况下 , 集成新阶段游戏的信息 , 和在新区域中学习值函数 。
也就是说 , 在稀疏奖励信号环境中 , 通过新的奖励集成的知识 , 可能会干扰到过去掌握的策略 。
本文插图
上图是整个训练过程中 , 对游戏的前五个环境进行采样的频率 。
在训练早期(左列) , 因为尚未发现之后的环节 , 智能体总是在第一阶段进行独立训练 。 到了训练中期 , 智能体的训练开始结合上下文 , 这就可能会导致干扰 。 而到了后期 , 就只会在最后一个阶段对智能体进行训练 , 这就会导致灾难性遗忘 。
并且 , 这种现象广泛适用 。
本文插图
上面这张图中 , 每柱对应一个不同的游戏 , 其高度代表Rainbow Memento智能体相对于Rainbow基线增长的百分比 。
在整个ALE中 , Rainbow Memento智能体在75%的游戏中表现有所提升 , 其中性能提升的中位数是25% 。
推荐阅读
- 「图像处理」李沐团队提出最强ResNet改进版,多项任务达到SOTA | 已开源
- 每日经济新闻咨询@联邦学习成人工智能新贵 腾讯安全:技术服务能力才是重点
- 【】人工智能突破三维矢量全息新技术
- 『』一汽集团成立人工智能公司,2019人工智能应用场景、发展趋势分析
- 「人工智能」AI“慢生意”,驶入“快车道”
- 『栈外』人工智能一秒把照片转成油画,我们为什么还需要画家?
- 清疯子:身边的人工智能技术
- [人工智能]原创 张强委员:运用人工智能技术减少医患感染
- 火星:NASA分享火星探索任务新信息:将使用三艘宇宙飞船
- 「机器人」科学家使用集成神经网络改变机器人步态