大模型导论
上QQ阅读APP看书,第一时间看更新

1.2.1 按模型结构划分

根据模型采用的Transformer架构中模块的不同(Transformer架构主要由Encoder模块和Decoder模块组成),可以分为Decoder-Only、Encoder-Only和Decoder-Encoder[26]3种类型。每种类型的模型适合于不同的下游任务。

早期的大模型以开源模型居多,如BERT、ERNIE[27]、T5[28]、BART[29]等。这些模型以Encoder模块或Encoder-Decoder模块作为主体结构,具备较好的编码能力。

近些年,GPT-3、ChatGPT、GPT-4等模型应用Decoder-Only结构。这类模型具有优秀的生成能力,这使得 Decoder-Only 成为非常流行的大模型结构。由于大模型的研究与成本较高,大多数Decoder-Only结构的大模型并不开源。部分国内外大模型如表1-1所示。

表1-1 部分国内外大模型