盲视科幻小说 盲视( 二 )


科学家用动物实验更好地证明了这一点 。当他们把老鼠放在笼子里时,天花板上会有一个动态刺激,即一个小斑点会迅速变大,这模仿了自然环境中老鹰向老鼠俯冲时老鼠视网膜接收到的光信号 。这时候老鼠的第一本能就是装死 。科学家发现,通过操纵上丘中的神经元反应,小鼠可以在看到移动的斑点后停止装死,或者即使没有移动的斑点,小鼠也可以主动装死 。这个实验表明,本能的快速反应走的是皮层下通路,而不是深度神经网络模拟的皮层下通路 。
在老鼠把移动的斑点当成老鹰的实验中,老鼠没有刻意识别刺激是斑点还是老鹰,立刻装死 。这是动物的一种本能反应,即老鼠不需要详细的特征提取就能识别运动模式 。
参考这个例子,我们提出了一种在识别运动模式时无需特征提取的新算法 。我们建立了一个模型,由两部分组成 。下图左下方是外部输入,黑色圆圈中的网络代表视网膜 。这里“视网膜”的计算很简单 。它将运动模式投影到高维空,使运动模式线性可分,然后输入决策网络 。“视网膜”里有很多神经元,相当于一个图书馆网络 。我们不需要培训图书馆网络和选择网络,只需要培训图书馆网络和选择网络之间的连接 。
关于选择网络,我以两个神经元为例来说明 。如下图所示,每个选择神经元代表一种要识别的运动模式 。这些神经元的动力学特别慢,因为识别运动模式的关键是把握输入的时间结构,而不仅仅是空结构 。这些选择神经元之间存在相互抑制,每个神经元通过库网络的输入收集证据 。如果证据支持自己编码的运动模式,这个神经元的反应就会抑制其他神经元的活动,最终取得胜利 。
该模型的计算本质是时间空模式的识别,因此我们可以将该模型扩展用于步态识别 。在这个任务中,人们在屏幕前行走1-2次,然后将步态输入模型进行识别 。这种模型的优点是可以用小样本训练,只需要1-2倍的数据就可以立刻学习一个人的步态特征 。
2
生物视觉是一个动态的交互过程 。我们引入一个心理物理学实验来说明从整体到局部的认知实际上是不可避免的 。请看下图所示的图像,猜猜它是什么 。
如果你以前没看过这张图,你是猜不到的,所以我把图像的轮廓画出来 。
现在你可以看到图中有一头牛 。如果把牛的轮廓去掉,你还是觉得它是图中的牛,因为你的大脑里已经有了牛从上到下的先验知识 。但这只是答案之一 。我也能画出一只手的轮廓,然后去掉轮廓 。这个时候你会认为图片是一只手,因为你从上到下都有手的先验知识 。
我还可以在画上画一条鱼 。相信这个时候你会觉得是图中的鱼 。
这个实验表明,人类识别物体时,大脑皮层自上而下的信号非常重要 。
这个简单的实验揭示了图像理解的一个深刻的数学问题,即给定一个图像,理论上有无限多种解释 。注意,图像理解不同于物体识别 。图像理解涉及两个基本操作,一个是图像分割,另一个是物体识别 。
但是两者的顺序是一个很难的悖论:给你一个图像,没有适当的分割,怎么识别好;另一方面,如果没有对象的预识别,如何进行适当的分割?从数学上讲,一幅图像有无限多种分割和识别的方式,所以从数学上讲这是一个不适定问题 。无论是人类还是AI,图像理解都面临着这样一个问题 。
大脑解决这个问题的思维是一个“猜测和确认”的过程 。当我们在信息资源网络中识别物体时,物体的图像信息被快速传递到更高级的皮层,即通过所谓的快速路径,在更高级的皮层中进行猜测 。然后通过反馈连接将猜测与新输入进行交叉检查,以便在重复后可以识别该对象 。
我们在日常生活中很难意识到这个过程,因为在日常生活中,往往只需要一两轮就能成功识别 。但有时候确实一个图像看不清楚,我们会从左往右盯着看,信息可能在大脑中交替上传下载,不断“猜-验证-猜-验证” 。只要验证结果是否定的,该过程将继续,直到获得肯定的结果 。
神经生物学充分证明了人脑的识别机制是真的 。从解剖学上来说,高级视觉皮层到初级视觉皮层的反馈连接比前馈连接更多 。相比之下,深度学习网络主要考虑前馈连接 。电生理实验证据也表明,大脑对物体的识别首先发生在高级视皮层,然后发生在低级视皮层 。
一般来说,生物视觉识别至少有两种方式 。快速方式识别整个对象,结果帮助慢速方式识别对象的局部信息 。
下面是我们最近的一个工作,介绍全局识别如何通过反馈提高局部识别 。我们在考虑识别物体时,首先识别大类中的物体,然后根据大类中的信息帮助识别小类中的物体 。比如我们看到一张图片,先识别它是动物,再识别它是猫,进一步识别它是什么种类的猫 。我们发现大规模信息可以通过正反馈和负反馈帮助小规模信息识别 。


推荐阅读