解构ChatGPT
上QQ阅读APP看书,第一时间看更新

1.2.2 技术特点

数据、模型、算力是AI的三大核心要素,ChatGPT充分体现了这3方面的特点。

(1)数据。海量数据相当于AI的教材。根据OpenAI 2020年发布的论文,ChatGPT的训练使用了4990亿个token的数据。这些训练语料的约60%来自于过滤后的Common Crawl,22%来自于WebText2,16%来自于Books1和Books2,3%来自于Wikipedia。

(2)模型。使用亿级的语料或者图像等数据集进行知识抽取、学习,进而产生亿级参数模型。GPT-3使用的模型参数高达1750亿,使用了深度神经网络、自监督学习、强化学习和提示学习等人工智能模型。OpenAI在GPT-3模型基础上使用RLHF(Reinforcement Learning from Human Feedback,基于人类反馈的强化学习)技术对ChatGPT进行了训练,且加入了更多人工监督进行微调。ChatGPT能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,像人类一样聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码等任务。

(3)算力。训练和运行模型需要强大的算力支撑。据OpenAI团队发表于2020年的论文Language Models are Few-Shot Learners,训练一次1750亿参数的GPT-3模型需要的算力约为3640 PFlop/s-day,即假如每秒计算一千万亿次,也需要计算3640天。