1.3.2 Transformer模型_ChatGPT原理与架构：大模型的预训练、迁移和中间件编程-QQ阅读男生都市网

上QQ阅读APP看本书，新人免费读10天

设备和账号都新为新人

1.3.2 Transformer模型

GPT系列采用了Transformer模型，这是NLP任务中广泛使用的深度学习模型，由Vaswani等于2017年提出。Transformer模型的核心组件是自注意力机制，在模型中，对每个输入元素分别计算查询（Query）、键（Key）和值（Value）向量。模型通过矩阵运算来计算各个元素间的关联度（概率），并生成最可能的序列，从而捕捉输入序列中的长程依赖关系。

相较于RNN，Transformer模型的自注意力机制可以同时处理整个序列（见图1.4），充分利用并行计算能力，提升训练效率。同时，这种模型可以直接捕捉序列中任意位置之间的依赖关系，有效地解决长程依赖问题。在大语言模型训练中，Transformer模型具有良好的扩展性，能够更容易地扩大模型规模，从而捕捉更多的信息，构建更复杂的表示。因此，它几乎成为自然语言处理、视觉处理多模态处理的基础模型。

图1.4 Transformer模型

（图片来源：http://jalammar.github.io/illustrated-transformer/）

值得注意的是，虽然原始的Transformer模型包括编码器-解码器架构，但GPT只采用了解码器部分（见图1.5）。编码器和解码器都由N个相同的层堆叠而成。源序列和目标序列（原始数据可以是图像或文本）都经过嵌入层处理后得到相同维度的数据。每个编码器层都包含一个多头注意力模块（带有Q、K、V输入）和一个前馈神经网络模块。解码器层首先是一个多头注意力模块，然后是一个与编码器堆叠输出相连接的多头注意力模块（即查询Q来自解码器，而值V和键K来自编码器），最后是一个前馈神经网络模块。输出阶段通过softmax分类器（选择概率最高的分类或词汇）进行处理。

图1.5 GPT系列的模型架构示意图

（图片来源：https://api.stock.us/api/v1/report-file/wz3g1myv?download）