新智元MIT科学家用AI设计“好奇心”算法:基于元学习探索奇妙世界


新智元MIT科学家用AI设计“好奇心”算法:基于元学习探索奇妙世界
本文插图
新智元报道
编辑:梦佳、雅新
很多伟大的发明一开始都是好奇心驱使的 。
苹果砸到牛顿头上 , 他开始思考为什么苹果会从树上掉下来 , 于是得出了万有引力定律 。
新智元MIT科学家用AI设计“好奇心”算法:基于元学习探索奇妙世界
本文插图
瓦特对烧水壶冒出的蒸汽十分好奇 , 最后改良了蒸汽机 。 因为好奇 , 成就了「昆虫界的荷马」法布尔 。 因为好奇 , 德莱斯发明了自行车 。
数千年来 , 好奇心打开了人类的智慧大门 。
在好奇心的驱使下 , 人们探索世界并从经验中学到了新技能 。 相比之下 , 把计算机放到新的环境中 , 有时就会出现故障 。
新智元MIT科学家用AI设计“好奇心”算法:基于元学习探索奇妙世界
本文插图
将「好奇心」编码到算法中
为了能让计算机更好地适应新环境 , 工程师们尝试将好奇心编码到算法中 , 希望在好奇心推动下智能体能够去更有效地探索 , 了解他所处的环境 。
就和小孩学习新事物一样 , 智能体要首先从捡东西 , 操纵使用物体 , 投掷东西学起 , 实现了这些基本操作 , 学习其他事物的能力也会随之加快 。
工程师已发现了许多方法 , 能够将好奇探索机制编码到机器学习算法中 。 一直以来 , 研究人员也通过计算机来搜索新的算法 。 最近 , 麻省理工学院的一个研究小组在思考计算机在算法设计方面是否比人有优势 。
近年来 , 深度神经网络的设计(通过调整参数来搜索解决方案的算法)已通过Google的AutoML和Python中的auto-sklearn等软件实现了自动化 。 这使那些非专业人士也能轻易地开发AI应用程序 。
但是 , 尽管深度神经网络擅长做特定任务 , 但它们在新的环境中适用性不高 。 相比之下 , 用高级编程语言编出的算法能在不同任务和环境中迁移知识 。
利用AI自动设计算法
研究的合著者 , 麻省理工学院电气工程与计算机科学系 , 以及计算机科学与人工智能实验室(CSAIL)的研究生Ferran Alet说:「人为设计的算法非常普通 。 我们受到启发 , 使用AI来发现具有好奇心且能适应各种不同环境的算法 。 」
新智元MIT科学家用AI设计“好奇心”算法:基于元学习探索奇妙世界
本文插图
同时 , 作者表示 , 「我们从人和其他动物的好奇行为中汲取了灵感 。 假设好奇心是进化过程中探索发现的一种机制 , 该机制促使智能体在生命早期进行有意义的探索 。 这项探索使它能够在其一生学习中 , 不断获取经验赢得高额回报 。 我们将产生好奇行为的问题作为一种元学习 。 」
研究人员创建了一种「元学习」算法 , 该算法生成了52,000个探索算法 。 他们发现最上面的两个是全新的算法 , 从人为角度看 , 似乎太明显 , 违反直觉了 。 这两种算法都产生了探索行为 , 从根本上改善了一系列模拟任务中的学习过程 , 从二维网格图像导航到机器人蚂蚁行走 。 由于元学习过程会输出高级计算机代码 , 因此可以分解这两种算法 , 以了解其内部决策过程 。
该论文的高级作者是麻省理工学院计算机科学和电气工程学教授Lesile Kaelbling和Tomas Lozano-Perez 。 这项工作将在2020ICLR大会上进行具体介绍 。
该论文获得了许多没有参与其中的研究人员的称赞 。
Google的首席科学家Quoc Le表示 , 「使用程序检索来发现更好的内在奖励机制是非常有创意的 , 它帮助开拓了计算机辅助深度学习模型的设计 。 我非常喜欢这个idea , 在于它的程序是可以解读的」
研究人员将自动化的算法设计过程 , 比作是用有限的单词来写句子的过程 。 他们首先选择了一组基本构建模块来定义其探索算法 。 在研究了其他好奇心算法以获得灵感之后 , 他们挑选了30多种高级操作 , 包括基本程序和深度学习模型 , 来引导智能体做一些事情 , 比如记住以前的输入 , 比较当前和过去的输入 , 并使用学习方法来改变自己的模块 。 然后 , 计算机一次最多可以组合7种不同操作 , 生成描述52,000种算法的计算图 。


推荐阅读