为什么不会有 AGI（通用人工智能）

八月 2023 年

关于像 GPT-3、GPT-4、Claude 和 Llama 这样的大型语言模型的能力与局限性存在很多争议。它们是否表现出新兴的能力？它们只是表现出了记忆力而没有泛化能力吗？是否正确地暗示了它们具有推理能力？它们是否表现出人类水平的自然语言理解？我们甚至如何定义人类水平的自然语言理解？幻觉问题能否被彻底解决？自然语言处理领域是否已经过时（类似于福山的历史终结论）？

十一月惊喜

首先，让我说一些不那么原创的话，因为它们反映了我在大语言模型周围看到的许多想法。看到下一个单词预测模型能够做什么真是令人难以置信。没有人预料到我们能够用它们做这么多有用的事情，直到 OpenAI 打开了潘多拉的盒子，在 2022 年 11 月发布了 ChatGPT。这无疑是对语言力量和具体语境（考虑到“注意力是我们所需要的全部”）的有力证明，我们可以使用相同的 GPT 模型来完成摘要、翻译和问题回答等任务。

语言中有如此强大的力量，有如此多的智慧和知识。书面语中的力量是巨大的。仅仅通过试图根据上下文预测句子中的下一个单词，我们就能提炼出人类知识的某种内在结构，这是非常美丽的。这表明我们在说话或写作的方式上有相当大的标准化。因此，真正的创新是非常罕见的、不可预测的和珍贵的。由语言及其词汇和语法所创造的空间是无限的，但同时又受到逻辑、现实、人类经验以及我们从时间开始以来集体获得的经验的限制。这意味着我们的“语义空间”（我们所能创建的所有有意义句子或文本的空间）比我们以前认为的更有结构和可预测性。

我发现这一切都非常迷人。这就像语言中有某些算术或代数的法则，我们还没有完全理解，但它们使得一些单词序列有意义且类似于人类，而其他序列则不是。这是数学和计算机科学力量的证明。我们能够构建一个基于先进算法和语言数字表示的系统，生成类似人类的文本。数据挑战

大语言模型是在从互联网抓取的大量文本数据上训练的。在训练数据中，我们既有美丽的诗歌和丑陋的小说，也有事实信息和谎言，有深思熟虑的哲学探究和阴谋论，有人文主义文本和种族主义小册子。虽然有可能过滤掉一些污秽内容，但几乎不可能完全“净化”用于训练大语言模型的数据。这根本不可能，因为这将需要一种强大的评估方式来判断什么是真实的、什么是虚假的，什么是美丽的、什么是丑陋的。即使是我们人类也难以做到这一点并且可靠地达成共识，因为关于真相和美丽并没有一致的意见。

由于我们并不总是能达成一致或确定真相，所以相信我们可以建立一个系统（大语言模型），使其始终产生真实或美丽的句子是荒谬的。这就是为什么我有时对人们寄予 LLM 的期望感到不舒服的原因。人们期望 LLM 在所有事情上都不会犯错，尽管这对人类来说甚至都不可能实现。他们只举了一个例子，即大语言模型未能正确回答问题的情况（通常是在零样本情况下），并利用这个例子来贬低大语言模型的能力，尽管一次又一次地，在测试和测试之后，机器学习系统，包括大语言模型，已经证明超越了人类的能力。

机器学习系统与人类能力比较

其中一些批评是合理的。确实，大语言模型本身并不是推理机器。它们表现出一种类似于推理的东西，这仅仅是由词汇线索嵌入的。请看下面我强烈推荐的论文：

反事实推理：语言模型需要世界知识来理解因果关系吗？

但如果大语言模型在需要完成的复杂任务上准确率达到了 65%或 70%，并且通过巧妙的提示工程策略甚至可以将准确性提高到 80%或 90%，那么这难道不是让大语言模型成为了一个强大的工具吗？也许在多个主题的自然语言理解和问答方面比大多数人类更熟练？

拟人化

我发现人们经常批评大语言模型的能力，认为它们没有表现出人类水平的表现，因为它们有时会失败，而偶尔失败实际上是人类特有的特征，这让我感到奇怪。此外，我们如何调和这样一个事实，即大语言模型在通过的所有标准化测试中表现远优于大多数人类？我最近写了一篇关于使用 GPT-4 参加 CFA 一级考试的文章，结果令人印象深刻。大多数初级金融分析师都达不到这个水平。看一看：

"您的得分" 对应于 GPT-4 的分数

我相信问题出现在人们用他们对 AGI（通用人工智能）应该是什么的理解来评判 LLM 时。然而，LLM 并不是 AGI，所以让我们避免使用 AGI 的标准，比如通过自主学习新技能来适应不断变化的环境的能力（就像人类一样），来评估 LLM。此外，期望 LLM 完全正确似乎有些牵强，因为即使我们人类也不是百分之百正确的。此外，大语言模型生成语言，而根据定义，语言充满了模糊性、真相和谬误、美丽和丑陋，因此不可能存在“完美”的大语言模型。

这让我开始质疑 AGI 的可行性。当我们实现 AGI 时，我们如何识别它？它是应该是一个总是提供所有问题正确答案的系统吗？如果是这样，那是不可能的，因为不可能一直知道所有问题的正确答案。总会存在有争议的问题。事实上，真理始终是追求的对象。AGI 是否应该总是做出正确的决策？如果是这样，那也是不可能的。世界太过复杂，没有任何系统能够完美地辨别每种情况下最好的决策。

问题在于我们期望 AGI 具有人类的特点，但又不具备人类的缺陷。然而，我们甚至无法就我们认为的缺陷达成共识，因为不存在一致意见。另一个关于 AGI 的定义可能表明系统应该能够像人类一样快速地获得新技能，但我猜想速度更快。毕竟，谁会想要一个像人类那样需要花费 10 年时间才能掌握代数知识的系统呢？然而，即使是持有博士学位的人，也可能对 AGI 的定义存在分歧。代数中的 Ds 可能会犯代数错误，那么我们是否应该期望 AGI 会有所不同呢？只有在我们假设错误和失误纯粹是人类缺陷，而不是获取和创造知识过程中的固有部分时才可能实现这一点。

我注意到有一种趋势是将 AGI 拟人化，反映出人类似乎固有的创造超人或神一般的实体的愿望。但本质上，AGI 只是一种工具。自从 260 万年前由 Homo habilis 发明了第一件石器以来，我们人类一直依赖越来越复杂和强大的工具来改善我们的生活并实现我们的梦想。AGI、机器人或其他任何我们接下来发明的东西都始终是工具，因此需要人类的控制。我们不会发明出类似赛博格的人工通用智能，即使发明了，我们也最好知道如何控制它，因为它会像任何人类创造一样不完美。我们不希望赋予某个事物自主杀伤能力，尽管它在某些特定任务上非常高效，但它仍然可能犯错误。

我将大语言模型视为人类知识的数据库。虽然它们可能不像典型的 SQL 或 NoSQL 数据库那样，但本质上它们是语义数据库。然而，由于人类知识并不完美，这些数据库也不完美，偶尔会输出错误信息，尽管总体上仍然非常强大和有用。

令人难以置信的是，现在当我想要理解某个问题时，我只需要打开 ChatGPT（在我的情况下是 GPT-4），提出问题以进一步深入探究我的查询主题。这是终极苏格拉底式的体验，因为它需要批判性思维，因为我知道 ChatGPT 可能会产生错误的回答。因此，这种体验确实类似于拥有一个知识渊博的伴侣，可以与之讨论任何话题，但要记住这个伴侣可能会在它的言论中犯错，就像我的假设也可能是错误的。

大语言模型是否表现出新兴能力？

在我看来，它们并没有自我意识。人们往往在大型语言模型中感知到新兴能力，主要是因为这些系统是黑盒子，没有人真正理解它们为什么以这种方式运作。话虽如此，尽管大型语言模型偶尔会产生意外或令人惊讶的准确结果，但重要的是要记住，这些实例通常是由于大量底层数据和复杂算法的作用，而不是任何新兴的、自我发展的能力。因此，尽管大型语言模型令人着迷且无疑强大，但关键在于不能夸大或误解它们的能力。

大语言模型仅仅是表现出了记忆能力但缺乏泛化能力吗？

要做出明确的陈述是具有挑战性的。我相信其中涉及一定程度的记忆，但我同时也怀疑大语言模型具备某种泛化能力。如果它们不具备这种能力，那么它们就不可能如此有效地处理如此广泛的人类场景。因此，虽然大语言模型确实利用其庞大的训练数据来生成响应，但似乎存在一种模式识别和外推的元素，使它们能够在更广泛的背景下应用所学概念。

它们是否展现出人类水平的自然语言理解能力？

我相信大语言模型（LLM）不会、也永远不会像人类那样真正理解人类语言。然而，我也认为，LLM 在模仿自然语言理解方面超越了普通人的能力。区分深层次的内在理解和基于模式、数据和算法的高级模仿理解是至关重要的，前者与人类的经验和意识紧密相连，后者则依赖于计算机的处理。是否有可能完全消除幻觉问题？

我怀疑我们无法完全消除幻觉问题，因为它从根本上与我们的书面文本经常包含矛盾的事实和信仰有关。期望大语言模型能够绕过我们自己嵌入文本中的不一致性似乎有些不现实。此外，目前的大语言模型的训练过程中没有任何特定的设计来增强事实性。我相信当前大语言模型所展示的事实性在很大程度上是记忆的衍生——关于某个主题的噪音减少使得大语言模型能够更有效地记住正确的事实。

自然语言处理领域是否已经过时（类似于福山的历史终结论）？

我们都知道福山宣称历史终结之后发生了什么。我认为自然语言处理（NLP）也是如此。NLP 绝不是过时的技术。事实上，我们在该领域不断发现新的挑战、方法和视角。NLP 的持续进展反映了历史的进程，其中新时代展开，范式转移。因此，与历史一样，NLP 远未达到终点，它仍然在不断发展和进步。

关于 GPT 模型的关键概念

像 GPT-4 这样的生成式预训练转换器（GPT）模型是基于变压器架构设计的，它们使用深度学习和对语言的概率理解，而不是正式的语法规则。以下是支撑 ChatGPT 魔力的关键概念：

嵌入：GPT 操作的第一步涉及将单词转换为密集向量表示。这通常使用一种称为词嵌入的方法来实现，其中每个唯一的单词都与一个高维向量相关联。这些向量在空间中的位置是经过学习的，以便具有相似含义的单词彼此靠近。
Transformer 架构：GPT 使用了一种名为“transformer”的架构，它涉及矩阵乘法、缩放、加法和激活函数（如 softmax 函数）等数学运算。该模型在预测下一个单词时，通过一种称为“注意力机制”的方式对序列中的不同单词赋予不同的权重，从而在嵌入序列上运行。
概率语言建模：GPT 将语言视为一系列概率事件序列，其中每个单词都是基于先前单词的条件概率分布选择的。它使用最大似然估计的概念在训练期间调整其内部参数。模型的下一个单词预测是给定先前单词具有最高概率的单词。
反向传播和梯度下降：GPT 使用反向传播和梯度下降来学习其内部参数（神经网络中的权重）。这些是迭代改进模型预测的数学算法。反向传播计算损失函数相对于模型参数的梯度（变化的度量），然后梯度下降利用这些梯度更新参数。
损失函数：GPT 使用损失函数来量化其预测与实际结果之间的偏差程度。常用的选择是交叉熵损失，它比较了模型预测的概率分布与真实分布之间的差异。
注意力机制：GPT 使用一种名为“缩放点积注意力”（scaled dot-product attention）的机制，该机制决定了在生成下一个单词时应该对输入中的每个单词给予多少“注意力”。这涉及到取输入单词向量的点积（相似度的一种度量），应用一个缩放因子，然后应用 softmax 函数以获得概率分布。该模型学习其训练数据中的模式，这些模式可以包括基于语法（syntax-based）和基于意义（semantic-based）的模式，但它是以本质上统计和概率的方式来学习的。