1.4 网络的算子_AI加速器架构设计与实现-QQ阅读男生历史网

AI加速器架构设计与实现

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

上一章目录下一章

1.4 网络的算子

了解了网络的基本块之后，我们还需要对网络中的具体运算进行深入的分析和理解，将重要的、常用的运算进行分类总结，提取相应的算子。表1-2是从图像处理相关领域的神经网络中提取的算子，我们选择一些重要的算子进行说明。

表1-2 神经网络中的算子

（续）

1.卷积

卷积（Convolution）是卷积神经网络中最重要的运算方式，这可能也是CNN被称作卷积神经网络的原因。无论从运算量还是参数量来看，卷积运算所占的比例都很高，进行硬件架构设计前的首要任务就是把卷积理解透彻。

卷积按照运算特点可分为Norm Conv、group Conv、3D Conv、de-Conv、dilate Conv等。Conv是基础，后面几种都是在Conv的基础上进行的变化。由于卷积运算中一般含有对偏置（bias）的加法操作，这个加法操作在硬件实现上具有独立性，因此本书中描述的卷积不包括对偏置的加法操作。对于输入为W×H×C的特征图，对应的权重为S×R×C×K，输出特征图为W＇×H＇×K，其卷积运算过程如下。

式中，W表示输入宽度（Width），H表示输入高度（Height），C表示输入通道数（Channel），S表示权重宽度（Weight Width），R表示权重高度（Weight Height），K表示输出通道数（Kernel）。DX表示水平方向的空洞卷积步长（Dilate X），DY表示垂直方向的空洞卷积步长（Dilate Y），LP表示向左填补（Left Pad），RP表示向右填补（Right Pad），SX表示水平方向步长（Stride X），SY表示垂直方向步长（Stride Y），TP表示向上填补（Top Pad），BP表示向下填充（Bottom Pad）。本书后续公式参数含义同此处一致。

图1-19是一个S×R=3×3的例子。

图1-19 S×R=3×3的卷积运算

对于不同的输出通道，使用的权重也是不同的，图1-19只画出了第一个输出通道使用的权重。对于普通卷积运算来说，权重R、S的尺寸也不相同，常见的卷积核尺寸如表1-3所示。

表1-3 常见卷积核尺寸

卷积核尺寸类似时，步长（stride）的尺寸如表1-4所示。

表1-4 常见卷积步长

需要注意的是，在ResNet中有可能出现步长比卷积核尺寸大的情况，在硬件实现时要考虑对这种情况的支持。

2.池化

池化（Pooling）运算是仅次于卷积的常用算子之一。池化可分为最大池化、平均池化、全局平均池化、上采样池化等，其中最大池化最常见。如图1-20是一个基于最大池化的掩码池化。

图1-20 最大池化的掩码池化

被掩码的元素不参与池化操作，具体哪个元素会被掩码，需要通过参数来控制，这样就会使掩码池化变得有点奇怪。掩码池化仅有个别网络在使用，对于这种会大大增加硬件复杂度，又不太通用的算法，我们在架构设计时可以将其舍弃。如果硬件开销不大，可以考虑从硬件方面给予支持。最大池化运算使用的滤波器尺寸如表1-5所示。

表1-5 最大池化运算使用的滤波器尺寸

需要说明的是，表1-5仅针对最大池化运算，进行其他池化操作时，滤波器尺寸可能会比较大，甚至超过3×3，在硬件实现时需要注意。此外多数情况下，池化操作的步长是2或者3，也有出现其他情况的可能。

如图1-21是一个在注意力网络（Attention Net）中使用通道池化的例子。

从硬件角度来看，相对于卷积操作，池化的运算量不大，硬件实现也相对简单。需要注意的是，池化操作的种类繁多，并且在神经网络中池化层跟卷积层交替排列，如果池化架构有问题，就会影响整个加速器的性能。

3.全连接

从硬件实现的角度来看，全连接运算是卷积核尺寸和输入特征图尺寸相同的卷积运算的特例。如图1-22所示是两种常见的全连接算子运算过程。

图1-21 通道池化示例

图1-22 两种全连接算子运算

4.激活函数

目前大部分神经网络引入了激活函数（Activation），从图像处理相关神经网络中提取出来的激活函数一般包括ReLU系列、Sigmoid、Tanh等。下面整理了ReLU系列的激活函数。

图1-23是几种ReLU函数曲线。

图1-23 几种ReLU函数曲线

Sigmoid函数的定义如表1-6所示，函数曲线如图1-24所示。

Tanh函数的定义如表1-7所示，函数曲线如图1-25所示。

表1-6 Sigmoid函数定义

图1-24 Sigmoid函数曲线

表1-7 Tanh函数定义

图1-25 Tanh函数曲线

从硬件角度来看，除了ReLU函数外，其他激活函数如果直接用硬件实现，代价会比较高，可以考虑用LUT（Look Up Table，查找表）实现这些非线性函数。

5.归一化

为了解决某些问题，算法研究者引入了一些归一化操作，例如BatchNorm、LRN、L2 Norm等。BatchNorm的定义如表1-8所示。

表1-8 BatchNorm的定义

乍一看BatchNorm很复杂，其实可以化简成表1-9的形式。

表1-9 BatchNorm的化简

LRN的定义如表1-10所示。

表1-10 LRN的定义

LRN包括通道内操作和跨通道操作，如表1-11所示，示意图如图1-26、图1-27所示。

表1-11 LRN的操作

（续）

图1-26 通道内操作示意图

图1-27 跨通道操作示意图

L2_Normalization（L2_Norm）也包括通道内操作和跨通道操作两类，如表1-12、表1-13所示。

表1-12 L2_Normalization的定义

表1-13 L2_Normalization的操作

6.Softmax

对于目前大多数神经网络，在最后会包含一个Softmax层，定义如表1-14所示。

表1-14 Softmax的定义

7.其他

目前的神经网络种类很多，其中使用的算子也很多，如表1-15所示。从硬件角度来看，可能不需要实现所有的算子，但最好都了解一下，以防出现严重的功能性缺陷。

表1-15 神经网络中的部分算子

（续）

算法不止，架构更新不止。目前神经网络算法还在快速演进中，硬件架构师要紧跟算法潮流，弄清目标领域的需求。根据众多影响因素下进行取舍，正是架构设计中最重要的任务所在。

本周热推：

人人都该懂的人工智能智能计算系统：从深度学习到大模型 AIGC提示词美学定义 ChatGPT速学通：文案写作+PPT制作+数据分析+知识学习与变现 AI速成课：从AI编程到构建智能软件

上一章目录下一章