反思卷积神经网络:图像角度泛化上的困难重重( 二 )


此外 , CNNs将图像解析为整个主体 , 而不是多物体的各部件 。 不能明确表示不同主体及其间关系 , 意味着它对于未识别过的对象分析强度降低 。 这也意味着它以蛮力来识别图像:记忆像素不同的图像时 , 往往记忆细节更丰富的表示形式 , 而忽略物体各部件(例如 , 薄轮胎+框架+手柄=自行车) 。
这主要是因为卷积神经网络无法像人类那样识别图像 。 确实 , 在标准数据集的完美环境中 , 旋转和平移不常见或不重要的简单任务下 , CNNs表现良好 。 但是随着我们对图像处理的需求愈发增加 , 技术也需要被更新 。
解决不变量问题的一个方法是通过空间变换 , 它将在预测之前定义轴和图像边界 。 从而帮助纠正缩放(第一行)和旋转(第二行)所存在的不平衡 , 以及注意机制所存在的噪点(第三行) 。
反思卷积神经网络:图像角度泛化上的困难重重
本文插图
图源:空间变换网络
事实上 , 空间变换网络还可以消除复杂畸变 。 鉴于三维视角的复杂性 , 它还能够超越旋转和缩放变换 , 具有十分重要的价值 。
反思卷积神经网络:图像角度泛化上的困难重重
本文插图
图源:空间变换网络
还有其他几个架构 , 比如最近提出的缩放不变性卷积神经网络(SiCNN) 。 比较出名的是Geoff Hinton提出的胶囊网络:它通过层级来明确建立识别单个部件——他认为这是人类的自然识别方法 。
Hinton指出 , 计算机视觉的任务就是推翻计算机图形 。 图形程序使用分层模型 , 根据位置不变的矩阵计算空间结构 , 视角只是一个矩阵乘法 。 因此 , 图像识别网络的目的应该是寻找视角表示和''内部''对象表示之间的关系 , 这种关系与视角无关 。
每个胶囊网络都会被分配给一个内在对象 , 并且通过强制模型学习特征方差来进行无特定角度识别 。 这使得外延性增加 , 意味着图像模型开始真正对镜头的所有视角有了良好的泛化及分类 。 胶囊网络还对空间信息进行编码 , 并且只进行''协议路由'' , 这意味着如果内容相似 , 网络仅向更高级别的图层发送较低级别特征 , 如眼睛、鼻子和嘴唇 。
反思卷积神经网络:图像角度泛化上的困难重重
本文插图
图源:unsplash
显然 , 这是一个与卷积神经网络完全不同的范例 。 然而 , 也许正是这种处理图像识别的转变 , 才使设计数据集翻篇 , 转而构造出在日益复杂和按需要求的实际任务中表现更好的更智能且稳固的模型 。
反思卷积神经网络:图像角度泛化上的困难重重
本文插图
留言点赞关注
我们一起分享AI学习与发展的干货
【反思卷积神经网络:图像角度泛化上的困难重重】如转载 , 请后台留言 , 遵守转载规范


推荐阅读