1.3 未来发展方向
根据Mahowald et al(2023)的研究,推理知识有4种类型——形式推理(如逻辑推理和问题解决)、世界知识(包括物体、事件、属性、参与者和关系的知识)、情景建模(创建从语言输入中提取的故事表征并跟踪其随时间演变的能力)和社会推理(在使用语言的同时考虑对话者的心理状态和共享知识)。正如Mahowald et al(2023)和Kauf et al(2022)等其他研究评估的证据所展示的,在某种程度上,许多LLM在其中许多领域的表现仍然不如人类。
目前在网络自然文本语料库上训练LLM,以预测上下文中的单词为目标的方法,不足以诱导功能性语言能力(functional linguistic competence)的涌现。这种方法偏向于低层次的输入属性,缺乏常识性知识,限制了模型的泛化能力,而且需要大量的数据。然而,最近的例子,如Minerva、InstructGPT(Ouyang et al,2022)和ChatGPT,都显示了通过调整训练数据和(或)目标函数而改进的结果。这些模型在专门的语料库上进行微调,并使用额外的技巧,如基于人类反馈的强化学习。Mahowald et al(2023)认为,一个成功的现实世界语言使用模型需要包括问题解决者、落地体验者、情境建模者、实用推理者和目标设定者,因此,它应该是一个包含领域通用和特定领域(domain-specific)成分的通用智能模型。这可以通过在具有不同目标函数的数据集上训练模块化模型来实现。
由于语言并不能表达知识的所有方面,因此我们很难从中获得完整的信息。这是一种被称为“报告偏差”(reporting bias)的现象造成的(Gordon and Van Durme,2013),即说话者可能会省略他们认为听众已经知道的信息。报告偏差是Grice的数量准则(maxim of quantity)的结果,它表明,交流应该具有足够的信息量,但不能过度。Paik et al(2021)的研究表明,与草莓等单一颜色相关概念的颜色信息在语言生成中的表现力很差。此外,神经语言模型对物体的典型视觉属性(如形状)的了解有限,而更大的模型并不一定能改善这一局限性(Zhang et al,2022a)。然而,这种局限性可能是由于纯文本基础模型缺乏落地,若为它们提供语言之外的信息,就像多模态模型那样,有助于缓解这个问题。归根结底,基础模型缺乏将从文本中获得的知识恰当地表征和组织成适当结构并使用这些结构来解决语言理解任务的能力。因此,挑战不在于获得它们所训练的数据中无法获得的特定信息,而在于开发能够更好地利用从文本中习得信息的模型(Lenci,2023)。
为了衡量在创建能够以类似人类的方式使用语言的语言模型方面所取得的进展,建立评估形式语言能力和功能语言能力的基准至关重要。这种区分有助于在讨论语言模型时消除混淆,也可以消除“语言能力强等于思维能力强”和“思维能力差等于语言能力差”(Mahowald et al,2023)等错误观念。目前,已经有几个可用于评估语言模型的形式语言能力的基准(Gauthier et al,2020),但还需要更多的测试来评估语言的核心特征,如层次和抽象。然而,至今还没有评估功能语言能力的单一基准,而且针对功能语言能力子集(如常识性推理)的数据集可能会被语言模型利用有缺陷的启发式方法所操纵。尽管如此,我们仍有可能区分基于词共现的技巧和真正的推理能力。对语言模型的形式语言能力和功能语言能力进行全面、单独的评估,有助于创建在这两个领域都很出色的模型。最终,语言模型应该能够解决需要各方面语言能力的复杂任务,但在目前的早期阶段,重要的是关注可以分离的特定技能,以便更好地了解模型的缺点(Mahowald et al,2023)。
根据Villalobos et al(2022)的分析,高质量语言数据很快就会耗尽,可能在2026年之前。然而,低质量语言数据和图像数据的耗尽时间预计会晚得多,低质量语言数据的耗尽时间为2030年至2050年,图像数据的耗尽时间为2030年至2060年。这项研究表明,除非数据效率得到显著提高或出现替代数据源,否则严重依赖海量数据集的机器学习模型的持续扩展可能会减速。
人工智能研究的一个新领域旨在使LLM能够产生自己的训练数据,并利用它来提高性能。虽然人类从外部来源习得知识,如阅读书籍,但我们也可以通过分析和反思内部信息来产生独特的想法和见解。同样,LLM可以利用它们在训练过程中吸收的大量书面数据(如维基百科、新闻文章和图书)来创造新的书面内容并进一步提升自己的能力。
最近的研究表明,LLM可以通过生成一组问题和答案、过滤最佳输出和微调仔细挑选的答案来进行自我改进(Huang et al,2022)。这种方法在各种语言任务(包括用于评估LLM性能的基准)上取得了先进的性能。此外,研究人员还开发了能生成自然语言指令的LLM,然后LLM根据这些指令进行自我微调,从而显著提高性能(Wang et al,2022e)。Sun et al(2022)认为,如果LLM在回答问题之前背诵它对某一主题的了解,它就能提供更准确和更复杂的回答。这与人类在分享自己的观点之前反思自己的信念和记忆相类似。
将LLM与人类大脑相类比,可以减轻人们对LLM生成自己的数据是循环论证的担忧。人类也会摄入大量数据,这些数据会改变人类大脑中的神经连接,从而产生人类大脑或任何外部信息源中都没有的新见解。同样,如果LLM能够生成自己的训练数据,就可以解决阻碍人工智能发展的迫在眉睫的数据短缺问题。如果LLM能够生成自己的训练数据并继续自我完善,这将是人工智能的一个重大飞跃。
人们普遍认为ChatGPT和GPT-4等模型将取代流行的搜索引擎,成为主要的信息来源。然而,这种想法过于乐观,因为如今的LLM会产生不准确和误导性的信息。尽管LLM的功能强大,但也存在“幻觉”问题,即它们会犯一些错误,如推荐不存在的图书或提供不正确的概念解释。
目前,人们正在努力通过创新来减轻LLM在事实方面的不可靠性,使它们能够从外部来源检索信息,并为它们生成的信息提供参考文献和引文。我们将在第8章中回顾这一领域的一些新发展。
当代大语言模型的多功能性和强大功能令人印象深刻。与基于LLM的顶级对话智能体(如ChatGPT)进行讨论,可能会令人非常信服,以至于人们最终会将它们拟人化。这里可能有一些复杂而微妙的东西在起作用。语言模型最近取得的进展表明,当足够大的模型在丰富的文本数据上进行训练时,就会涌现非同寻常和意想不到的能力。
即使大语言模型本质上只能进行序列预测,但它们在学习时可能发现需要更高层次解释的新兴机制。这些更高层次的术语可能包括“知识”和“信念”。我们知道,人工神经网络可以高度准确地逼近任何可计算的函数。因此,在参数、数据和计算能力足够的情况下,如果随机梯度下降法是优化精确序列预测目标的最佳方式,那么随机梯度下降法就有可能发现这种机制。
为了进一步扩展LLM,一种名为稀疏专家模型(sparse expert model)的新方法在人工智能界受到越来越多的关注。稀疏专家模型的运行方式与密集模型不同,它们只能调用最相关的参数子集来响应给定的查询。这与密集模型形成了鲜明对比,在密集模型中,每次模型运行时都会激活所有参数。
由于稀疏专家模型的特点是能够只激活必要的参数来处理给定的输入,因此,与密集模型相比,稀疏专家模型的计算能力更强。稀疏专家模型可以看作“子模型”的集合,这些“子模型”是不同主题的“专家”,根据输入情况,只激活最相关的“专家”。这种架构是它们被称为稀疏专家模型的原因。拥有超过1万亿个参数的大语言模型,如谷歌的Switch Transformer(Fedus et al,2022)、GLaM(Du et al,2022)以及Meta的Mixture of Experts(Artetxe et al,2021),都是稀疏的。我们将在第7章仔细研究稀疏专家模型背后的技术。
稀疏专家模型可以在不增加运行时间的情况下创建更大的模型,因为密集模型的大小增加一倍,运行速度就会降低一半。最近的研究表明,稀疏专家模型具有巨大的潜力,GLaM模型比GPT-3模型大7倍,训练所需的能量更少,推理所需的计算量更少,同时在一系列自然语言任务上的表现也优于GPT-3模型。此外,稀疏专家模型只需要很少的计算量,就能实现与密集模型相似的下游任务性能。除了计算效率高之外,稀疏专家模型也比密集模型更易于解释,这对于像医疗保健等高风险环境来说非常重要。理解模型为什么采取特定行动的能力至关重要。稀疏模型的可解释性更强,因为其输出是“专家”被激活后的结果,这使得人类更容易提取可理解的解释。
通过分析用户互动和个人偏好,新一代LLM在增强个性化和定制化方面有很大的潜力。在与用户互动的过程中,LLM能够了解他们的写作风格、语气和语言,从而做出更加个性化和精确的回应。由于LLM可以学习如何识别和响应每个用户的独特需求和偏好,因此个性化水平可以提升到能够提供更好的客户服务和教育的地步。此外,开发人员还可以利用LLM交互产生的大量数据,创建适合每个用户特定偏好的语言模型,从而带来更有吸引力的个性化体验。
与所有快速发展的技术一样,必须考虑GPT-4模型和其他模型可能带来的潜在伦理和社会影响。随着这些技术的发展,必须彻底分析各种关切,如隐私及其对就业的影响。例如,在客户服务领域部署大语言模型可能会导致行业内的职位流失,而通过这些模型收集数据又会引发严重的隐私问题。因此,仔细考虑这些技术的伦理影响,并保证其发展和应用是负责任的、符合伦理的,这一点至关重要。
在本书中,我们将详细讨论LLM中的偏见和有害性减少等关键话题。此外,我们还将探讨如何利用强化学习技术,使得这些模型符合人类价值观。我们的目的是探索有效减轻LLM的负面影响,提高其对社会的整体效用的方法。
目前,诸如ChatGPT之类的语言模型能够根据其内部知识为查询提供答案,但不具备与外部环境交互的能力。它们无法为不理解的问题检索信息,也无法执行除了用户生成文本输出之外的任务。在不久的将来,新一代大型Transformer模型和语言模型将具备在互联网上读写和采取行动的强大能力。可以说,这些模型将可能具有广泛的智能体能力。事实上,“智能体人工智能”可能成为继“生成式人工智能”之后的下一个大趋势。