1.2 卷积神经网络
1.2.1 卷积
卷积是分析数学的一种重要运算,也是卷积神经网络的基石。在计算机视觉领域,所提到的卷积通常指二维卷积,即离散的二维滤波器(也称为卷积核)。对于单通道卷积,其计算方式如图1.4所示。
二维图像的卷积可以理解为二维滤波器滑过二维图像上的所有位置,并在每个位置与该二维图像对应位置像素进行内积。如图1.4所示,输入为一个(3×3)像素的二维图像,二维滤波器的尺寸为(2×2)像素,滑动的步长为1像素(本书后面涉及图像的单位均为像素),卷积后的输出为图1.4中最右边的结果。
图1.4 单通道卷积的计算方式
卷积广泛应用于图像处理领域,不同的卷积核可以提取不同的特征,如边缘、线性、角点等。在深层卷积神经网络中,通过卷积可以提取图像的复杂特征。
受益于生物学中的视觉系统结构,卷积的设计也拥有局部连接特性,每个神经元仅与输入神经元的一块区域连接,这块区域称为感受野(Receptive Field)。在图像卷积操作中,神经元在空间维度上是局部连接的,但在深度上是全连接的。
二维图像本身的局部像素关联较强,这种局部连接保证了学习后的二维滤波器能够对局部输入特征有较强的响应。此外,卷积还有权重共享特性,即在计算同一个神经元时采用的二维滤波器是共享的,这样可以在很大程度上减少参数量。
共享权重在一定程度上是很有意义的,如图像的底层边缘特征与其在图像中的具体位置无关。但是,在一些场景中共享权重又是无意义的。例如,输入的图像是人脸、眼睛和头发,这些部位是处于人体的不同位置上的,卷积神经网络模型希望在不同的位置学到不同的特征。
在卷积层,通常采用多组卷积核提取不同的特征,即对应不同通道的特征,不同卷积核的权重是不共享的。
通过介绍卷积的计算过程及其特性可以看出卷积是线性操作,并具有平移不变性。平移不变性是指在图像的每个位置执行相同的操作。卷积层的局部连接和权重共享特性使卷积神经网络需要学习的参数量大大减少,有利于训练较大的卷积神经网络。