深度卷积|深入卷积神经网络:高级卷积层原理和计算的可视化

在深度计算机视觉领域中,有几种类型的卷积层与我们经常使用的原始卷积层不同。在计算机视觉的深度学习研究方面,许多流行的高级卷积神经网络实现都使用了这些层。这些层中的每一层都有不同于原始卷积层的机制,这使得每种类型的层都有一个特别特殊的功能。
在进入这些高级的卷积层之前,让我们先快速回顾一下原始的卷积层是如何工作的。
原始卷积层
在原始的卷积层中,我们有一个形状为WxHxC的输入,其中W和H是每个feature map的宽度和高度,C是channel的数量,基本上就是feature map的总数。卷积层会有一定数量的核,核会对这个输入进行卷积操作。内核的数量将等于输出feature map中所需通道的数量。基本上,每个内核都对应于输出中的一个特定的feature map,并且每个feature map都是一个通道。
核的高度和宽度是由我们决定的,通常,我们保持3x3。每个内核的深度将等于输入的通道数。因此,对于下面的例子,每个内核的形状将是(wxhx3),其中w和h是内核的宽度和高度,深度是3,因为在这种情况下,输入有3个通道。
 深度卷积|深入卷积神经网络:高级卷积层原理和计算的可视化
文章图片
在本例中,输入有3个通道,输出有16个通道。因此在这一层共有16个内核,每个内核的形状是(wxhx3)。
高级的卷积层
我们将在本教程中涵盖的高级卷积层的列表如下:
深度可分离的卷积
反卷积
空洞卷积
分组卷积
深度可分离的卷积层
在深度可分离卷积层中,我们试图极大地减少在每个卷积层中执行的计算数量。这一整层实际上被分为两部分:
i)深度卷积
ii)逐点卷积
深度卷积
深度卷积的关键点在于,每个核函数都是应用在单个输入通道上,而不是同时应用所有的输入通道。因此,每个内核都是形状(w*h*1)的,因为它将应用于单个通道。内核的数量将等于输入通道的数量,因此,如果我们有W*H*3大小的输入,我们将有3个单独的W*H*1内核,每个内核将应用于输入的单个通道。因此,输出也将具有与输入相同数量的通道,因为每个内核将输出单个feature map。让我们看看深度卷积部分是如何工作的:
 深度卷积|深入卷积神经网络:高级卷积层原理和计算的可视化
文章图片
如果我们有一个C通道的输入,那么这一层的深度卷积部分的输出也会有C通道。接下来是下一部分。这一部分的目的是改变频道的数量,因为随着我们深入了解CNN,我们经常希望增加每一层输出的频道数量。
逐点卷积
逐点卷积将把深度卷积的中间C通道输出转换为具有不同数量通道的feature map。为了做到这一点,我们有几个1\s*1的内核,它们在这个中间feature map块的所有通道上进行卷积。因此,每个1*1内核也将有C通道。每个内核将输出一个单独的feature map,因此我们将得到的内核数量与我们希望输出的通道数量相等。让我们看看这是如何工作的。
 深度卷积|深入卷积神经网络:高级卷积层原理和计算的可视化
文章图片
这就是深度可分离卷积层的整个过程。基本上,在深度卷积的第一步,每个输入通道都有一个核函数然后将它们与输入进行卷积。这样的结果输出将是一个feature map块,它具有与输入相同数量的通道。在逐点卷积的第二步中,我们有几个1*1的核,并将它们与中间特征映射块进行卷积。我们将根据我们希望输出的通道数量来选择内核的数量。
这一层比原来的卷积层要轻量得多。这是因为,在第一步中,我们没有使用巨大的卷积在所有输入通道上的内核,而是使用单通道的内核,这将会小得多。然后在下一步,当我们试图改变通道的数量时,我们使用了对所有通道进行卷积的内核,但是这些内核是1*1的,因此它们也要小得多。本质上,我们可以把深度可分离卷积看作是把原来的卷积层分成两部分。第一部分使用具有较大空间区域(宽度和高度)但只有一个通道的内核,第二部分使用跨越所有通道的内核,但它们有较小的空间区域。
深度可分离的卷积层在移动网络中使用,因为这样CNN有更少的参数,以便他们可以在移动设备上使用。它们也被用于Xception CNN架构中。
反卷积层
通常在卷积层中,feature maps的空间面积(width and height)在每层之后会减小或保持不变。但有时我们想增加空间面积。这些增加空间面积而不是减少空间面积的特殊层称为反卷积层。有两种主要类型的反卷积层:
转置卷积
上采样
两者在某些方面是相似的,但也有一些差异。本质上,其目的是在应用卷积之前,通过在feature map中引入更多的像素来增加空间面积。填充这些新像素值的方式形成了转置卷积和上采样之间的主要区别。添加新像素的方式如下:
 深度卷积|深入卷积神经网络:高级卷积层原理和计算的可视化
文章图片
在调整feature map的大小时,我们可以改变扩充比例,但通常情况下,我们做的是2倍的扩充。这样,feature map的高度和宽度会翻倍,因此像素的总数是原始feature map的4倍。
转置卷积
在转置卷积中,我们只是用0的值填充所有增加的像素。这有点像在feature map的原始像素之间添加填充。


推荐阅读