「MIT」MIT科学家颠覆现有视觉训练模型:过去的模型训练顺序反了


一睁开眼睛 , 我们立刻就能感知到周围环境的各种细节 。 大脑是如何如此迅速地对周围这些丰富而详细世界进行建构的 , 这是机器视觉研究的终极问题之一 。
已经有不少科学家们试图用计算机视觉模型来模拟这一现象 , 在此之前 , 最先进的模型也只能执行简单的任务 , 比如在杂乱的背景下挑选出一个物体或一张脸 。
「MIT」MIT科学家颠覆现有视觉训练模型:过去的模型训练顺序反了
本文插图
不过 , 由麻省理工学院认知科学家领导的一个科研团队已经开发出了一种叫高效逆图(EIG)的模型 , 采用和以往计算机图形程序生成二维图像相反的计算步骤 。 研究人员称 , 这种模型与非人类灵长类动物大脑中人脸识别区域的电流运动记录相似 , 表明它可能和灵长类动物的视觉系统大致相同 。
这一模型背后的理念实际上并不新鲜 。 1个多世纪以前 , 物理学家、哲学家赫尔曼·冯·赫姆霍尔兹就提出过大脑通过逆转图像形成的过程来创造刻画世界的想法 。
他假设视觉系统中有一个图像发生器 , 比如说可以用来产生我们在梦中看到的面孔 。 反向运行这个信号发生器可以让大脑从图像中逆向工作 , 并推断出什么样的面孔或物体会产生这样的图像 。
之前的问题在于 , 大脑是如何快速进行这一过程的?
【「MIT」MIT科学家颠覆现有视觉训练模型:过去的模型训练顺序反了】这一过程存在多个数据迭代周期 , 大脑只需100-200毫秒就能完成 , 而最先进的视觉算法也需要比这长得多的时间 。
目前最可行的解释是 , 大脑可能存在几个神经处理层 , 通过其层次有序的前馈实现的 。
新的模型参照了这一点 。 其训练和传统的深度学习算法训练——让算法学习添加了各种数据标签的人脸——相反 , 新模型反映的是算法内部对于这些人脸的看法 , 也就是算法给这些人脸打上了什么标签 。
也就是说 , 和过去从3D转2D的训练模型不同 , 新模型先给算法提供2D图形数据 , 再向其添加诸如纹理、曲率和光线等特征 , 构成一种“2.5D”图形 。 这种图形首先会从某些特定的角度构建面部数据 , 随着各角度的覆盖 , 最终形成一个3D图形 。
研究人员现在计划在其他图像上继续测试这种建模方法 , 包括那些不是人脸的物体 , 以研究逆图形是否也可以解释大脑如何感知其他类型的场景 。 此外 , 他们认为 , 将这种方法应用于计算机视觉 , 可能会带来性能更好的AI系统 。


    推荐阅读