ChatGPT原理与架构:大模型的预训练、迁移和中间件编程
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3.2 Transformer模型

GPT系列采用了Transformer模型,这是NLP任务中广泛使用的深度学习模型,由Vaswani等于2017年提出。Transformer模型的核心组件是自注意力机制,在模型中,对每个输入元素分别计算查询(Query)、键(Key)和值(Value)向量。模型通过矩阵运算来计算各个元素间的关联度(概率),并生成最可能的序列,从而捕捉输入序列中的长程依赖关系。

相较于RNN,Transformer模型的自注意力机制可以同时处理整个序列(见图1.4),充分利用并行计算能力,提升训练效率。同时,这种模型可以直接捕捉序列中任意位置之间的依赖关系,有效地解决长程依赖问题。在大语言模型训练中,Transformer模型具有良好的扩展性,能够更容易地扩大模型规模,从而捕捉更多的信息,构建更复杂的表示。因此,它几乎成为自然语言处理、视觉处理多模态处理的基础模型。

图1.4 Transformer模型

(图片来源:http://jalammar.github.io/illustrated-transformer/)

值得注意的是,虽然原始的Transformer模型包括编码器-解码器架构,但GPT只采用了解码器部分(见图1.5)。编码器和解码器都由N个相同的层堆叠而成。源序列和目标序列(原始数据可以是图像或文本)都经过嵌入层处理后得到相同维度的数据。每个编码器层都包含一个多头注意力模块(带有QKV输入)和一个前馈神经网络模块。解码器层首先是一个多头注意力模块,然后是一个与编码器堆叠输出相连接的多头注意力模块(即查询Q来自解码器,而值V和键K来自编码器),最后是一个前馈神经网络模块。输出阶段通过softmax分类器(选择概率最高的分类或词汇)进行处理。

图1.5 GPT系列的模型架构示意图

(图片来源:https://api.stock.us/api/v1/report-file/wz3g1myv?download)