DeepTech深科技|或能识别从未见过的事物,一种新方法或让AI模型拥有“联想”力

一种新的方法正在让人工智能模型获得人类的“联想”能力 , 甚至能让它识别此前从未见过的事物 。
来自加拿大滑铁卢大学的博士生伊利亚(IliaSucholutsky)和他的博士导师马赛厄斯?尚劳(MatthiasSchonlau)教授 , 首次提出了“少于一次”样本学习的概念和方法 , 并由此为人工智能技术的演进提供了新的思路 。
相关研究论文于2020年9月发表在预印本网站arXiv上 , 名为“'LessThanOne'-ShotLearning:LearningNClassesFromM<NSamples” 。
伊利亚告诉DeepTech , 他们的研究显示 , 对于机器学习模型来说 , 理论上通过两个样本(example)即可训练模型学会识别任意数量类别(class) 。
没人知道 , 这种方法一旦实现大规模应用 , 人工智能会迸发出怎样的火花 。
高企的训练成本机器学习 , 尤其是深度学习往往需要大量的训练数据 。
著名的语言模型GPT-3使用了45TB的数据进行训练 , 这个过程耗资达到了惊人的1200万美元 , 即使有微软的鼎力相助 , 训练结束之后发现了一些小Bug也不舍得重新训练 。
目前 , GPT-3是炼丹师们“大力出奇迹”的集大成者 , 但可以预见 , 不远的将来一定会有新的模型超越并取代它的位置 。
“更多更大更强”的思路是没有尽头的 。 假如我们稍稍停下疲于奔命的脚步 , 回归到现实中的人类学习过程 , 就会发现一个触及灵魂的拷问——人工智能真的必须依托如此巨量的数据才能够实现吗?
相信很多人的答案并不笃定 。
举个例子 , 假如现在需要让人工智能模型“认识”马这种动物 。 常规的做法是挑选成百上千的马匹图像对其进行训练 。
之所以需要如此之多的样本 , 是因为同样一匹马 , 仅仅是转换一个拍摄角度 , 或微调一些肉眼无法观察的像素点 , 人工智能就会识别失败 , 所以需要大量的大小、颜色、体态、朝向、品种不一的样本填满人工智能的“盲区” 。
即便如此 , 人工智能的识别成功概率也不能达到100% , 我们离创造真正可以复现大脑理解能力的人工智能还非常遥远 。
但人类的儿童 , 却只需要一张看图识字的卡片 , 便能轻易分辨出唐僧所骑乘的是马 , 而不是其他外型类似的生物 。 并且 , 儿童一旦学会识别某种事物 , 这项技能终其一生都很难忘记 , 只会越来越熟练 。
更有甚者 , 儿童可以在没有任何真实示例的情况下“认出”一个新的物体 。 例如 , 展示给他们一匹马和一头犀牛的图片 , 并告诉他们独角兽结合了两者的特点 , 他们就可以在第一次看到独角兽时认出这个传说中的生物 。
DeepTech深科技|或能识别从未见过的事物,一种新方法或让AI模型拥有“联想”力
文章图片
图|犀牛+马=犀牛马?好吧 , 这张图并不像独角兽 , 但一定程度上体现了论文作者的意图 。
伊利亚和导师认为 , 人工智能模型也应该具备同样的能力 。 也就是说 , 人工智能模型应该可以从M个样本中学习到N个类别 , 其中N可以远远大于M 。 这样 , 理论上模型就可以识别比训练示例更多的图像 , 而此前的科研人员可能并未充分挖掘训练数据的全部潜力 。
他们将这一过程称为“少于一个”样本学习(LO-ShotLearning) 。
考虑到居高不下的训练成本和日益庞大到接近极限的训练数据 , 这种让人工智能学会“合理联想”的方法或许会在未来产生颠覆性影响 。
如何实现“少于一个”样本学习?在此前的一篇论文中 , 现为麻省理工学院博士生的TongzhouWang和同事介绍了一种“蒸馏”方法 , 可以将大数据集“提纯”为小数据集 。
作为实践 , 他们将MNIST(一个包含了6万张从0到9手写数字图片的业内常用测试数据集)提纯压缩成了一个仅由10张图像组成的训练数据集 。
这些图像不是直接从原始数据集中选取的 , 而是经由一系列的设计和优化后 , 赋予了这10张图像几乎与整个原始数据集相同的信息 。


推荐阅读