pytorch实现 GoogLeNet——CNN经典网络模型详解 _GoogLeNet

一、前言论文地址：http://arxiv.org/abs/1602.07261
2014年，googleNet和VGG是当年ImageNet挑战赛(ILSVRC14)的双雄，GoogLeNet获得了第一名、VGG获得了第二名，这两类模型结构的共同特点是层次更深了。VGG继承了LeNet以及AlexNet的一些框架结构，而GoogLeNet则做了更加大胆的网络结构尝试，虽然深度只有22层，但大小却比AlexNet和VGG小很多，GoogleNet参数为500万个，AlexNet参数个数是GoogleNet的12倍，VGGNet参数又是AlexNet的3倍，因此在内存或计算资源有限时，GoogleNet是比较好的选择；从模型结果来看，GoogLeNet的性能却更加优越。
那么，GoogLeNet是如何进一步提升性能的呢？一般来说，提升网络性能最直接的办法就是增加网络深度和宽度，深度指网络层次数量、宽度指神经元数量。但这种方式存在以下问题：（1）参数太多，如果训练数据集有限，很容易产生过拟合；（2）网络越大、参数越多，计算复杂度越大，难以应用；（3）网络越深，容易出现梯度弥散问题（梯度越往后穿越容易消失），难以优化模型。所以，有人调侃“深度学习”其实是“深度调参” 。
解决这些问题的方法当然就是在增加网络深度和宽度的同时减少参数，为了减少参数，自然就想到将全连接变成稀疏连接。但是在实现上，全连接变成稀疏连接后实际计算量并不会有质的提升，因为大部分硬件是针对密集矩阵计算优化的，稀疏矩阵虽然数据量少，但是计算所消耗的时间却很难减少。
二、googlenet详解网络中的亮点：

引入了Inception结构（融合不同尺度的特征信息）
使用1x1的卷积核进行降维以及映射处理
添加两个辅助分类器帮助训练
丢弃全连接层，使用平均池化层（大大减少模型参数） Inception结构 inception原文链接

注意：每个分支所得的特征矩阵高和宽必须相同

文章插图

左图呢，是论文中提出的inception原始结构，右图是inception加上降维功能的结构。
先看左图，inception结构一共有4个分支，也就是说我们的输入的特征矩阵并行的通过这四个分支得到四个输出，然后在将这四个输出在深度维度（channel维度）进行拼接得到我们的最终输出（注意，为了让四个分支的输出能够在深度方向进行拼接，必须保证四个分支输出的特征矩阵高度和宽度都相同）。

分支1是卷积核大小为1x1的卷积层，stride=1，
分支2是卷积核大小为3x3的卷积层，stride=1，padding=1（保证输出特征矩阵的高和宽和输入特征矩阵相等），
分支3是卷积核大小为5x5的卷积层，stride=1，padding=2（保证输出特征矩阵的高和宽和输入特征矩阵相等），
分支4是池化核大小为3x3的最大池化下采样，stride=1，padding=1（保证输出特征矩阵的高和宽和输入特征矩阵相等）

再看右图，对比左图，就是在分支2，3，4上加入了卷积核大小为1x1的卷积层，目的是为了降维，减少模型训练参数，减少计算量。
1x1卷积核降维
可以看到图1中有多个黄色的1x1卷积模块，这样的卷积有什么用处呢？
作用1：在相同尺寸的感受野中叠加更多的卷积，能提取到更丰富的特征。

文章插图

上图左侧是是传统的卷积层结构（线性卷积），在一个尺度上只有一次卷积；右图是Network in Network结构（NIN结构），先进行一次普通的卷积（比如3x3），紧跟再进行一次1x1的卷积，对于某个像素点来说1x1卷积等效于该像素点在所有特征上进行一次全连接的计算，所以右侧图的1x1卷积画成了全连接层的形式，需要注意的是NIN结构中无论是第一个3x3卷积还是新增的1x1卷积，后面都紧跟着激活函数（比如relu）。将两个卷积串联，就能组合出更多的非线性特征。
举个例子，假设第1个3x3卷积＋激活函数近似于f1(x)=ax2+bx+c，第二个1x1卷积＋激活函数近似于f2(x)=mx2+nx+q，那f1(x)和f2(f1(x))比哪个非线性更强，更能模拟非线性的特征？答案是显而易见的。NIN的结构和传统的神经网络中多层的结构有些类似，后者的多层是跨越了不同尺寸的感受野（通过层与层中间加pool层），从而在更高尺度上提取出特征；NIN结构是在同一个尺度上的多层（中间没有pool层），从而在相同的感受野范围能提取更强的非线性。
作用2：使用1x1卷积进行降维，降低了计算复杂度。
同样是对一个深度为512的特征矩阵使用65个大小为5x5的卷积核进行卷积，不使用1x1卷积核进行降维话一共需要819200个参数，如果使用1x1卷积核进行降维一共需要50688个参数，明显少了很多。