反思卷积神经网络：图像角度泛化上的困难重重

全文共2342字，预计学习时长6分钟

本文插图
图源：unsplash
一直以来，卷积神经网络（CNN）在多个标准数据集上所展现出的技术发展水平都令人印象深刻。毫无疑问，卷积神经网络在图像处理及周边领域的开发进程和研究突破中发挥着重要作用。
但是，这不代表卷积神经网络表现完美。
研究人员经常会遇到一个问题：他们往往由于过于追求理论和完美数据集而深陷其中。然而事与愿违，要求数据准确度到小数点后几位其实往往与现实情况中图像处理的实际用处恰恰相反。在无噪声且结果可预测的数据集环境下，所设计出的算法和方法很可能不符合现实情况而导致表现不佳。
事实也确实如此。卷积神经网络特别容易产生''对抗性''输入，或对输入进行小改动，而这些改动会有意或无意地干扰神经网络正常工作。
就在今年，网络安全公司McAfee发现，只要将一条两英寸宽的黑色胶带贴到限速标志上， Mobileye（特斯拉以及其他汽车制造商都在使用的汽车智能系统）就会失控并以50英里每小时的速度加速并超过限速。
来自华盛顿大学和加州大学伯克利分校等四所大学的研究人员也发现，当停车标志被漆或贴纸掩盖住时，路标识别模型就完全失效。这并非是在为难系统，而是现实生活中确实会碰到这种情况。此外，卷积神经网络在图像移动或旋转上的泛化能力很差，更不用说观察三维的不同角度了。

本文插图
图源：Evtimov etc
要弄清为什么卷积神经网络在图像角度泛化上困难重重，就必须先理解卷积神经网络是如何能够正常工作的，以及卷积神经网络和池化层的特别之处。
由于整个图像都被同一卷积层滤波器扫描（可视为某种''特征检测器'' ，用于识别线条或其他特征），所以不受平移影响。因为滤波器覆盖整个图像，所以无论被识别对象在左上方还是右下角都会被检测到。池化层有助于''总结''每个区域的识别结果以进一步优化，卷积层和池化层的存在也使得倾斜或缩放的物体在不同区域能被识别到。

本文插图
图源：HackerNoon
另一方面，滤波器无法捕获缩放。红色框表示当识别到鸟时，滤波器处于高度激活状态。而当图像被缩放时，由于滤波器大小有限，滤波器处于任何位置都无法被高度激活。

本文插图
图源：Pixabay
旋转也会出现同样问题。如果有些像素值与其他值相关，则滤波器只是产生高值的权重矩阵。由于滤波器是固定的，并且自上而下左右固定移动，因此它无法识别除此以外由其他轴向布局的图像。

本文插图
图源：Pixabay
处理此问题的标准方法是数据增强，但这也不是一个很好的解决办法。卷积神经网络只需记忆，物体也可以从近似的方向以近似大小出现，而不一定泛化到所有视角。将网络暴露在各物体的所有视角实则实操性不强。处理这个问题的另一个方法是使用高维地图，但也十分低效。
Geoff Hinton将CNNs描述为对不变性建模的尝试——对神经活动进行池化或平滑以避免其被微小的变化影响，他发现这个方向是错误的。其目的是使最终标签不随视角而改变。他反其道而行之，提出以等方差作为目标——神经活动会根据视角的变化而改变。权重编码不随形状而改变，而不是为了激活滤波器。

反思卷积神经网络：图像角度泛化上的困难重重

推荐阅读

月薪1万+，事业单位，每天工作很痛苦很累，感觉自己要抑郁了，我应该辞职吗

百岁茶人张天福,天福茗茶

电视剧@感觉现在的国产电视剧越来越没啥看的了，原因有这些！

「萌爸育儿手帐」希望我的后半生能为自己活，一位36岁母亲的自述：前半生为他人活

110平米的原木风，入户就被迷住了，全屋原木材料装饰超温馨

人民威评：疫情防控期间个人行踪轨迹信息的合理利用

@10年职场，我只坚持做这四点，职场越走越顺，人脉越来越宽

武汉火神山医院实现2/4/5G网路全覆盖

薛定谔的猫通俗解释薛定谔的猫什么意思

冬季如何储存红薯最好冬季储存红薯用什么方法最好

海外网|新冠肺炎成美国警察2020年首要殉职原因

辽宁高考|辽宁高考首次引入AI技术对考场违规行为进行判断

劲舞团托马斯舞步劲舞团步子

安徽中医药大学|这个大学校长借学校更名扩建插手校园基建敛财

功立说八卦|大小s两姐妹相互扶持，郑氏姐妹颜值很能打，圈中的明星姐妹花

特朗普|白宫美女新闻秘书：特朗普不想激活反叛乱法，他想尽所能帮忙

「华北新闻网」到底有多不靠谱？，深扒！晒太阳给孩子补钙

莫小帅|这情况也在中科院意料之外，真的乱了！台积电、ASML公开表白

武汉启圣教育培训中心■科学补充蛋白质，守护家人健康

太空|“星链计划”已经吓退了，所有的太空竞争对手