ChatGPT原理与架构:大模型的预训练、迁移和中间件编程
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.1 ChatGPT的发展历程

半个多世纪以来,让计算机像人类一样进行交流一直是科技领域的追求。对于聊天应用,人们并不陌生。早在1966年,MIT的约瑟夫·维森鲍姆(Joseph Weizenbaum)教授就开发了第一个聊天程序ELIZA。随着时间的推移,人们见证了从苹果的Siri、微软的小冰、智能音箱到各种领域的智能助手的诞生,这些人工智能产品已经深深地融入人们的生活中。

这些产品有一个共同的特性,即它们能很明显地被识别为人工智能产品,这意味着它们与人类的会话水平还有较大的距离。但ChatGPT与众不同,它不仅能进行复杂的多轮文本对话,还能编写代码、营销文案、诗歌、商业计划书和电影剧本。尽管它并不完美,可能会出现错误,但其强大的能力足以使它成为最接近通过图灵测试的人工智能产品。

ChatGPT是由OpenAI团队研发的。OpenAI是由创业家埃隆·马斯克、美国创业孵化器Y Combinator总裁山姆·阿尔特曼,以及全球在线支付平台PayPal的联合创始人彼得·泰尔等于2015年在旧金山创立的一家非营利的AI研究机构。总部位于美国加利福尼亚州的OpenAI,得到了众多硅谷知名人士的资金支持,初始投资就高达10亿美元。

Transformer模型是由谷歌大脑团队在2017年的论文“Attention is all you need”中首次提出的。如今,该模型已被视为人工智能发展的重要里程碑,它虽然没有完全取代以往的循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Network,CNN)结构,但在自然语言处理(Natural Language Processing,NLP)和计算机视觉(Computer Vision,CV)等领域中展现出了出色的效果,并已成为这些领域的基础架构。如图1.1所示,OpenAI在Transformer模型的基础上,不断地进行NLP的研究,最终推出了ChatGPT。

图1.1 GPT系列进化时间线

OpenAI在2018年首次推出了其生成式预训练模型GPT-1,该模型利用大规模未标注数据,通过预训练的方式增强了AI系统的语言处理能力,并通过有监督微调方式在多任务上具有泛化能力。

2019年3月,OpenAI从非营利组织转变为封顶利润组织,引入微软作为其战略投资者,并创建了OpenAI LP公司。同年7月,微软向OpenAI投资10亿美元,获得OpenAI技术的商业化授权,将OpenAI公司开发的产品与微软产品深度融合。同年,OpenAI推出了GPT-2模型,该模型利用更大的数据集WebText(约有40 GB的文本数据、800万个文档)以及更多的模型参数(达到惊人的15亿个参数),进一步提高了模型的准确性,并提出零样本学习(zero-shot)证明了无监督学习的价值,以及预训练模型可广泛应用于NLP的下游任务中。

到2020年6月,OpenAI发布了GPT-3模型,同时推出了其首个产品OpenAI API,标志着OpenAI正式进入商业运营阶段。同年9月,OpenAI授权微软使用其GPT-3模型,使微软成为全球首个使用OpenAI GPT-3的公司。GPT-3的规模空前庞大,最大版本拥有1750亿个参数,是GPT-2的约117倍。此外,GPT-3提出了上下文学习(In Context Learning,ICL),采用提示(Prompt)的方式适配更多的下游任务,并出现思维链等多种涌现能力。

2021年,微软再次向OpenAI投资,双方的合作进入新阶段。2022年11月,OpenAI在微软的支持下发布了ChatGPT,ChatGPT基于GPT-3.5,并采用InstructGPT类似的人类反馈强化学习(Human Feedback Reinforcement Learning)来对齐人类需求,仅两个月后,ChatGPT的全球活跃用户数就突破了1亿。2023年年初,OpenAI推出了ChatGPT Plus订阅服务以及具备多模态数据处理和推理能力的GPT-4模型,为ChatGPT Plus的用户提供了使用自然语言处理版本的GPT-4。