反思卷积神经网络:图像角度泛化上的困难重重


全文共2342字 , 预计学习时长6分钟
反思卷积神经网络:图像角度泛化上的困难重重
本文插图
图源:unsplash
一直以来 , 卷积神经网络(CNN)在多个标准数据集上所展现出的技术发展水平都令人印象深刻 。 毫无疑问 , 卷积神经网络在图像处理及周边领域的开发进程和研究突破中发挥着重要作用 。
但是 , 这不代表卷积神经网络表现完美 。
研究人员经常会遇到一个问题:他们往往由于过于追求理论和完美数据集而深陷其中 。 然而事与愿违 , 要求数据准确度到小数点后几位其实往往与现实情况中图像处理的实际用处恰恰相反 。 在无噪声且结果可预测的数据集环境下 , 所设计出的算法和方法很可能不符合现实情况而导致表现不佳 。
事实也确实如此 。 卷积神经网络特别容易产生''对抗性''输入 , 或对输入进行小改动 , 而这些改动会有意或无意地干扰神经网络正常工作 。
就在今年 , 网络安全公司McAfee发现 , 只要将一条两英寸宽的黑色胶带贴到限速标志上 , Mobileye(特斯拉以及其他汽车制造商都在使用的汽车智能系统)就会失控并以50英里每小时的速度加速并超过限速 。
来自华盛顿大学和加州大学伯克利分校等四所大学的研究人员也发现 , 当停车标志被漆或贴纸掩盖住时 , 路标识别模型就完全失效 。 这并非是在为难系统 , 而是现实生活中确实会碰到这种情况 。 此外 , 卷积神经网络在图像移动或旋转上的泛化能力很差 , 更不用说观察三维的不同角度了 。
反思卷积神经网络:图像角度泛化上的困难重重
本文插图
图源:Evtimov etc
要弄清为什么卷积神经网络在图像角度泛化上困难重重 , 就必须先理解卷积神经网络是如何能够正常工作的 , 以及卷积神经网络和池化层的特别之处 。
由于整个图像都被同一卷积层滤波器扫描(可视为某种''特征检测器'' , 用于识别线条或其他特征) , 所以不受平移影响 。 因为滤波器覆盖整个图像 , 所以无论被识别对象在左上方还是右下角都会被检测到 。 池化层有助于''总结''每个区域的识别结果以进一步优化 , 卷积层和池化层的存在也使得倾斜或缩放的物体在不同区域能被识别到 。
反思卷积神经网络:图像角度泛化上的困难重重
本文插图
图源:HackerNoon
另一方面 , 滤波器无法捕获缩放 。 红色框表示当识别到鸟时 , 滤波器处于高度激活状态 。 而当图像被缩放时 , 由于滤波器大小有限 , 滤波器处于任何位置都无法被高度激活 。
反思卷积神经网络:图像角度泛化上的困难重重
本文插图
图源:Pixabay
旋转也会出现同样问题 。 如果有些像素值与其他值相关 , 则滤波器只是产生高值的权重矩阵 。 由于滤波器是固定的 , 并且自上而下左右固定移动 , 因此它无法识别除此以外由其他轴向布局的图像 。
反思卷积神经网络:图像角度泛化上的困难重重
本文插图
图源:Pixabay
处理此问题的标准方法是数据增强 , 但这也不是一个很好的解决办法 。 卷积神经网络只需记忆 , 物体也可以从近似的方向以近似大小出现 , 而不一定泛化到所有视角 。 将网络暴露在各物体的所有视角实则实操性不强 。 处理这个问题的另一个方法是使用高维地图 , 但也十分低效 。
Geoff Hinton将CNNs描述为对不变性建模的尝试——对神经活动进行池化或平滑以避免其被微小的变化影响 , 他发现这个方向是错误的 。 其目的是使最终标签不随视角而改变 。 他反其道而行之 , 提出以等方差作为目标——神经活动会根据视角的变化而改变 。 权重编码不随形状而改变 , 而不是为了激活滤波器 。


推荐阅读