1.3.2 Transformer模型
GPT系列采用了Transformer模型,这是NLP任务中广泛使用的深度学习模型,由Vaswani等于2017年提出。Transformer模型的核心组件是自注意力机制,在模型中,对每个输入元素分别计算查询(Query)、键(Key)和值(Value)向量。模型通过矩阵运算来计算各个元素间的关联度(概率),并生成最可能的序列,从而捕捉输入序列中的长程依赖关系。
相较于RNN,Transformer模型的自注意力机制可以同时处理整个序列(见图1.4),充分利用并行计算能力,提升训练效率。同时,这种模型可以直接捕捉序列中任意位置之间的依赖关系,有效地解决长程依赖问题。在大语言模型训练中,Transformer模型具有良好的扩展性,能够更容易地扩大模型规模,从而捕捉更多的信息,构建更复杂的表示。因此,它几乎成为自然语言处理、视觉处理多模态处理的基础模型。
图1.4 Transformer模型
(图片来源:http://jalammar.github.io/illustrated-transformer/)
值得注意的是,虽然原始的Transformer模型包括编码器-解码器架构,但GPT只采用了解码器部分(见图1.5)。编码器和解码器都由N个相同的层堆叠而成。源序列和目标序列(原始数据可以是图像或文本)都经过嵌入层处理后得到相同维度的数据。每个编码器层都包含一个多头注意力模块(带有Q、K、V输入)和一个前馈神经网络模块。解码器层首先是一个多头注意力模块,然后是一个与编码器堆叠输出相连接的多头注意力模块(即查询Q来自解码器,而值V和键K来自编码器),最后是一个前馈神经网络模块。输出阶段通过softmax分类器(选择概率最高的分类或词汇)进行处理。
图1.5 GPT系列的模型架构示意图
(图片来源:https://api.stock.us/api/v1/report-file/wz3g1myv?download)