自动驾驶:感知原理与实践
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.3 GoogLeNet

GoogLeNet由GoogleAI团队于2014年提出(出自论文Going Deeper with Convolutions),并在当年的 ImageNet 竞赛的图像分类任务中获得第一名(注意:GoogLeNet中的L大写是为了向LeNet致敬),VGG网络也在当年由牛津大学提出。图1.11所示为GoogLeNet架构图。

GoogLeNet相比于VGG和AlexNet的优点如下。

● 引入了Inception模块(融合不同尺度的特征信息)。

● 1×1卷积核用于降维和映射。

● 添加了两个辅助分类器来辅助训练。

● 丢弃全连接层,使用平均池化(Average Pooling)层(大大减少了模型参数量,推理时去掉两个辅助分类器,其网络大小只有VGG的1/20)。

GoogLeNet提出了具有良好局部特征结构的Inception模块,即可以并行进行多个卷积(Convolution)操作和不同大小的特征池化操作,最后拼接在一起。由于1×1、3×3 和5×5 卷积操作对应不同的特征图区域,所以这样做的好处是可以获得更好的图像表示信息。为了在深度方向拼接4个分支的输出,需要保证4个分支输出的特征图的高和宽相同。

如图1.12所示,Inception模块使用4个卷积核进行卷积操作,并将这4部分级联(通道拼接)后传递到下一层。

图1.11 GoogLeNet架构图

图1.12 Inception基础模块结构(s代表步长)

在上述Inception模块的基础上,为了进一步减少网络参数量,增加了多个1×1卷积模块,如图1.13所示。这些1×1卷积模块主要用来对特征进行降维处理,并送给3×3和5×5卷积核。由于通道数量的减少,参数量大大减少。

图1.13 Inception模块改进结构