一本书读懂ChatGPT、AIGC和元宇宙
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

第一章 闪亮登场的智能科技

2022年12月,ChatGPT还只是个具备聊天功能的社交网络媒体应用。但2023年伊始,ChatGPT已经被公认为是继互联网、智能手机之后,带给人类第三次“革命”的科技产品。互联网开辟了“空间革命”,使实时与全世界链接成为现实,让我们不必千里迢迢奔赴现场,就可以通过互联网进行沟通、教学、视频会议,让政治、社会、商业产生连锁变化;智能手机的出现,带来了“时间革命”,通过可拓展安装的各种App(应用软件),我们可以实现最快交易、快速送达,让生活、工作、消费产生巨大变化;而ChatGPT的横空出世,有望掀起“思维革命”,ChatGPT可以代替人类进行创意创作、咨询解答、翻译服务、客服服务……改变人类思考和处理问题的方式,并由此重塑各行业生态,乃至重塑整个世界(见图1-1)。

图1-1 ChatGPT引发的思维革命

在ChatGPT中,GPT就是Generative Pre-training Transformer(预训练生成模型),OpenAI的语言模型可以助力教育领域、虚拟治疗师、写作辅助工具、角色扮演游戏等,在这些领域,社会偏见、错误信息和毒害信息的存在是比较麻烦的,只有规避这些系统缺陷才能使其更具有用性。ChatGPT能够回答连续的问题、生成文本摘要、翻译文档、对信息分类、写代码等,它也会承认错误、质疑不正确的前提并拒绝不恰当的请求。短短两个月,人们源源不绝地挖掘出ChatGPT的更多技能,包括替写代码、作业、论文、演讲稿、活动策划、广告文案、电影剧本等各类文本,根据描述绘图、翻译、写诗词,甚至扮演面试官、电影中的角色、陪聊、解忧讲故事者,乃至给予家装设计、编程调试、人生规划等方面的建议。

只要你悉心调教,ChatGPT甚至能从擅长交流的“咨询大师”快速进化,成为高效学习工具。经过连续追问,它能为你列举出辅助学习的大量书单和资料链接,帮你提炼一篇文章的关键要点、一个领域的知识图谱及核心脉络,甚至帮你在灵感枯竭时打开创意脑洞。

ChatGPT看起来什么都懂,就像一本百科全书。其流畅的回答方式,丰富的知识储备,给用户带来了极大的震撼。

瑞银集团的一份报告显示,在ChatGPT推出仅两个月后(2023年1月末),它的活跃用户量已经突破了1亿,打破了抖音的9个月的纪录,成为史上用户增长速度最快的App之一。而突破1亿用户,App Store用了2年,Instagram用了2.5年,WhatApp用了3.5年,推特用了5年(见图1-2)。

在过去几个月里,一大群人涌入网站,给ChatGPT提了各种要求。有软件工程师要求它调试代码,它做到了;有美食博主要求它写一份健康巧克力曲奇的食谱,它做到了;还有使用者让它为其编写绘画提示,以输入至另一个人工智能绘画应用Midjourney,它做到了,Midjourney根据它的文本描述成功创作出艺术作品。据说,斯坦福大学医学院的皮肤科医生Roxana Daneshjou在研究AI在医学上的应用时,向它提出了许多医学问题,并得到了充分的解答……

图1-2 部分应用用户突破1亿的时间

以前也出现过很多智能聊天机器人,但都没有ChatGPT这样神奇。ChatGPT可以进行长时间、流畅的对话,以回答人们的问题,并能撰写人们要求的几乎任何类型的书面材料,包括商业计划、广告活动方案、诗歌、笑话、计算机代码和电影剧本等。ChatGPT的应答时间十分短暂,它会在几秒钟内生成回答,用户无须等待,而且它生成的很多内容质量都还不错(见图1-3)。

图1-3 试用ChatGPT作诗

经过一段时间的试用,已经有很多人发现ChatGPT写论文、考试、做表格(整理信息)、编写程序、写诗歌等的能力可以超越80%的普通人,甚至能通过大学入学考试、Google程序员招聘等。这将大大影响教育行业。语言是逻辑思维的载体,如果ChatGPT因为具有强大的文字与语言处理能力而不学习如何使用语言,那么其他一切都将变成空中楼阁(见图1-4)。

图1-4 ChatGPT的主要特征

ChatGPT这次突然引爆舆论,在业内人士看来颇有些不可思议,连开发ChatGPT的OpenAI自己也没想到,它们可以顺利获得微软100亿美元的投资。微软大规模投资OpenAI,并宣布除了Office,搜索引擎Bing也要全面集成ChatGPT,势必要打破Google对搜索引擎20多年的垄断。这一举措逼得Google连投竞争对手,并把业务组织完全变阵。

OpenAI是美国的AI实验室,是非营利组织,其功能定位是促进和发展友好的人工智能,使人类整体受益。OpenAI成立于2015年底,创始人是埃隆·马斯克(Elon Musk)及前YC总裁山姆·阿尔特曼(Sam Altman)(见图1-5)。

维基百科资料显示,从时间轴来看,2015年底,OpenAI成立,组织目标是通过与其他机构和研究者自由合作,向公众开放专利和研究成果。

2016年,OpenAI宣称将制造通用机器人,希望能够预防人工智能的灾难性影响,推动人工智能发挥积极作用。

2019年3月1日成立OpenAI LP子公司,目标是盈利和商业化。

2019年7月22日微软投资OpenAI 10亿美元,双方合作为Azure(微软的云服务)开发人工智能技术。

2020年6月11日OpenAI宣布推出GPT-3语言模型,微软于2020年9月22日取得独家授权。

2022年11月30日,OpenAI发布了名为ChatGPT的自然语言生成式模型,以对话方式进行交互。

2023年1月,微软和OpenAI洽谈投资100亿美元事宜,并希望将OpenAI的人工智能技术纳入Word、Outlook、PowerPoint和其他应用程序中。

图1-5 OpenAI的发展历程

由此可见,微软不但很早对OpenAI进行了投资,而且在敏锐地发现ChatGPT的潜力后,再次重磅投入100亿美元,并且快速地在Office服务中集成了ChatGPT,Bing搜索引擎更是迅速部署ChatGPT并且上线。这对Google造成了巨大冲击——仿佛以“关键字搜索”为标志的“古典搜索引擎”将被淘汰了。

当然,微软并非心血来潮,这次投资OpenAI的行动之所以如此决绝与迅速,实际上源自微软对几乎错过了整个互联网时代的不甘。20世纪90年代是计算机的时代,微软一枝独秀;2000年以来是互联网的时代,Google、Amazon等巨头快速崛起,势头远超微软。事实上,微软早在2006年就启动了AI与隐私相关的研究。自2010年以来,负责语音处理和语言理解研发的部门一直由微软研究院副总裁Peter Lee领导,谋求将这些AI功能用到Office办公软件和Bing搜索引擎中,为对话转录、语法检查等功能提供技术支持。此后,微软一直利用先进的AI技术,潜移默化地改善各类产品的用户体验。在现任CEO萨提亚·纳德拉(Satya Nadella)的带领下,微软2019年给OpenAI投资了10亿美元,2020年买断了GPT-3背后基础技术的独家使用许可,从此与OpenAI建立了深厚的关系,并换来相当多的优先使用权限,包括将OpenAI大部分技术用于Bing搜索引擎等产品的优先授权,以及Azure云平台成为OpenAI的独家云供应商。

微软这项对OpenAI的颇具前瞻性的投资,已经显露出巨大回报。在OpenAI发布GPT-3大模型后没多久,微软就悄悄地将GPT-3集成到自家产品中,用于完善Office的自动补齐单词等功能,优化语音转文本工具。一位微软高级销售经理称,微软推出OpenAI功能的速度比他之前在微软研究院从事AI开发的速度快得多。

当然,OpenAI也离不开微软的软件和硬件的支持。据说,OpenAI模型在Azure中占用的空间和计算比微软语言模型Turing-NLG更多。对于像大型语言模型这样的计算密集型开发,降低成本最为关键。假设每月有1000万用户,每天运行ChatGPT的成本估计高达100万美元。微软CEO纳德拉曾透露,微软已经建造了一台超级计算机来处理OpenAI的工作,能以竞争对手一半的成本处理一些AI计算。

除此之外,由于微软是OpenAI最大的投资方,在OpenAI推出每月20美元的ChatGPT Plus订阅服务后,OpenAI从ChatGPT收到的商业报酬越多,就意味着微软能获得的回报越大。按照预测,OpenAI 2023年的预期收入将达到2亿美元,2024年将达到10亿美元。

Google这类搜索引擎是互联网时代里里程碑式的产物之一。Google可以说是互联网时代的“信息神庙”,它拥有丰富的人类知识并可以主导信息的流向和生产。任何人要想检索信息都需要登录网站,在这座“神庙”中行进。

然而,随着数据的不断增加,信息爆炸让信息检索变得越来越困难,互联网充斥着的信息垃圾常常掩盖了有价值的信息,搜索引擎的广告排名也让用户体验越来越差,以至于人们对搜索引擎的二次智能搜索功能产生了强烈的诉求。

搜索引擎采用平台化的集中式管理模式。因为平台有广告植入的空间和广告流量,所以用户需要到平台上自主检索,平台往往会列出几十页检索页面让用户自行筛选。在移动互联网时代,这种网页布告栏式的传统互联网交互方式已经落后。

为了打破Google占据的消费互联网搜索引擎入口的优势,微软的Bing搜索一直在尝试反击,目标就是用人工智能技术优化搜索结果(基于很少有人点开搜索结果第二页的现实,用AI算法尽可能把最优结果往前提,可以抵消Google大规模爬虫系统的优势)。

ChatGPT采用一对一的生成式对话方式,用户可以直接得到结果,而不是拿到一堆需要二次人工筛选的信息。ChatGPT有对话记忆功能,用户可以专注于这个对话,直到得到满意的结果。经过数千亿个单词语料的自然语言模型训练,ChatGPT可以用舒适感很强的表达方式与人对话,使用户体验大幅提升。

现在的微软只是回来了,试图用OpenAI的ChatGPT,将Google通过投资DeepMind、Boston Dynamics、Waymo积累的光环击碎。微软CEO纳德拉说:“对于知识型工作者来说,这完全等于工业革命。”还有人说,ChatGPT将像搜索引擎杀死黄页一样摧毁Google。摩根士丹利公开表示,ChatGPT可能给Google母公司的盈利能力带来长期威胁。为了应对ChatGPT的威胁,已退出Google日常业务的两位Google联合创始人紧急重返公司,多次发起会议商讨对策。Google还向研发ChatGPT竞品的创业企业Anthropic投资了约3亿美元,该企业的创始成员曾为创造ChatGPT的OpenAI工作。

如今,大家都很好奇ChatGPT是否能改变世界?答案是“能”!

在全球经济不明朗的大环境里,ChatGPT的诞生似乎吹起了一股清风,ChatGPT被寄予以智能科技来改善世界经济、促进社会进步的美好愿望。自从ChatGPT出现后,突然之间,每个人都在谈论人工智能如何影响他们的工作、学习和生活。ChatGPT之所以让大家感到震撼,是因为其用户体验大大超越以往的人机对话产品。普通使用者感觉到,自己不再是跟“人工智障”对话,ChatGPT对问题的理解很深入,生成的文本也很流畅,的确像是一个“人”在进行回复。甚至还有工程师尝试用ChatGPT改善智能家居体验。据说,一名高级Web开发人员用短短不到1小时的时间,通过与ChatGPT背后的GPT-3大模型交互,结合Siri Shortcuts做出了一个更智能的语音助手。这个语音助手不仅能控制整个苹果HomeKit智能家居系统,而且能够以超低的延迟轻松回答各种问题。他给予了ChatGPT极高的评价,称尝试过这个产品后,包括苹果Siri、亚马逊Alexa、Google Home在内的所有“智能”助手,都显得如此愚蠢而没用。

此外,ChatGPT将取代部分人类工作者的说法也耸人听闻地传开了,他们是:软件开发人员、网络开发人员、程序员、广告人、新闻记者等内容创作者,以及律师、市场研究分析师、教师、金融分析师、财务顾问、交易员、平面设计师、会计师、客服等(见图1-6)。这个取代的过程似乎有点残酷。未来,从产品和投资的角度看,现在的客服、翻译、文员、初级程序员、文案、家教等以文字工作为主业的从业者将受到第一波冲击,规模将达到上千万人,比如印度就将受到巨大的影响。随着失业人口增加、行业巨变,紧接着大量的语言处理相关公司将失去价值,之前火过一阵子的语音助手都将无人问津……

图1-6 ChatGPT可能取代的人类工作者