第 1 章。构建基础模型的 AI 应用程序介绍

如果让我用一个词来描述 2020 年后的人工智能，那就是规模。支持像 ChatGPT、谷歌的 Gemini 和 Midjourney 等应用的人工智能模型规模如此庞大，以至于它们正在消耗相当可观的全球电力，我们面临着耗尽可公开使用的互联网数据来训练它们的风险。

人工智能模型的规模扩大有两个主要影响。首先，人工智能模型变得更加强大，能够执行更多任务，从而支持更多应用。越来越多的人和团队利用人工智能来提高生产力、创造经济价值和改善生活质量。

其次，训练大型语言模型 (LLMs) 需要数据、计算资源和只有少数组织能够承担的专业人才。这导致了 模型即服务 的出现：这些少数组织开发的模型被提供为服务供他人使用。任何希望利用人工智能构建应用程序的人现在都可以使用这些模型，而无需在前期投资构建模型。

总之，人工智能应用的需求增加，而构建人工智能应用的门槛降低。这使得AI 工程——在现成模型基础上构建应用的过程——成为增长最快的工程学科之一。

在机器学习 (ML) 模型之上构建应用并不新鲜。在 {{1001 }} 变得突出之前，人工智能已经在驱动许多应用，包括产品推荐、欺诈检测和流失预测。

虽然生产化 AI 应用的许多原则保持不变，但新一代大规模、随时可用的模型带来了新的可能性和挑战，这正是本书的重点。

本章首先概述了基础模型，这是人工智能工程爆炸性增长的关键催化剂。然后，我将讨论一系列成功的人工智能应用案例，每个案例都说明了人工智能擅长与不擅长的方面。

随着人工智能能力的日益扩展，预测其未来可能性变得越来越具有挑战性。然而，现有的应用模式可以帮助我们发现今天的机会，并提供有关人工智能未来可能继续使用的线索。

为了结束本章，我将提供关于新的 AI 技术栈的概述，包括基础模型的变化、保持不变的内容，以及今天的 AI 工程师与传统机器学习工程师的角色有何不同。¹

人工智能工程的崛起

基础模型起源于大型语言模型，而大型语言模型又最初只是语言模型。

虽然像 ChatGPT 和 GitHub 的 Copilot 这样的应用似乎是突然出现的，但它们是数十年技术进步的结晶，第一代语言模型出现在 1950 年代。

本节追踪了推动语言模型向人工智能工程演变的关键突破。

从语言模型到大型语言模型

虽然语言模型已经存在了一段时间，但它们只有在自监督的帮助下才能发展到今天的规模。本节对语言模型和自监督的含义进行了快速概述。如果您已经熟悉这些内容，可以跳过本节。

语言模型

一个语言模型编码了关于一种或多种语言的统计信息。直观地说，这些信息告诉我们一个词在特定上下文中出现的可能性有多大。

例如，在上下文“我最喜欢的颜色是__”中，编码英语的语言模型应该比“汽车”更频繁地预测“蓝色”。

语言的统计特性在几个世纪前就被发现。在 1905 年的故事“跳舞的人冒险记”中，福尔摩斯利用简单的英语统计信息解码神秘的火柴人序列。由于英语中最常见的字母是E，福尔摩斯推断出最常见的火柴人一定代表E。

后来，克劳德·香农在第二次世界大战期间使用更复杂的统计方法来解密敌方的信息。他关于如何建模英语的研究发表于他 1951 年的标志性论文“印刷英语的预测与熵”。这篇论文中引入的许多概念，包括熵，至今仍被用于语言建模。

在早期，语言模型涉及一种语言。然而，今天，语言模型可以涉及多种语言。

语言模型的基本单位是token。一个 token 可以是一个字符、一个单词或一个单词的一部分（如-tion），这取决于模型。² 例如，GPT-4 是 ChatGPT 背后的模型，它将短语“I can’t wait to build AI applications”分解为九个 tokens，如图 1-1所示。请注意，在这个例子中，单词“can’t”被分解为两个 tokens，can和’t。您可以在OpenAI 网站上查看不同 OpenAI 模型如何对文本进行分词。

图 1-1. GPT-4 如何将一个短语进行分词的示例。

将原始文本拆分为标记的过程称为标记化。对于 GPT-4，平均一个标记大约是¾个单词的长度。因此，100 个标记大约是 75 个单词。

模型可以使用的所有符号的集合称为模型的 词汇量。您可以使用少量的符号构造出大量不同的单词，这类似于您可以使用字母表中的几个字母构造许多单词。Mixtral 8x7B 模型的词汇量为 32,000。GPT-4 的词汇量为 100,256。符号化方法和词汇量由模型开发者决定。

注意

为什么语言模型使用token作为单位，而不是word或character？主要有三个原因：

与字符相比，标记允许模型将单词拆分为有意义的组成部分。例如，“cooking”可以拆分为“cook”和“ing”，这两个组成部分都承载了原单词的一些含义。
因为独特标记的数量少于独特单词的数量，这减少了模型的词汇量，使模型更高效（如在第 2 章中讨论的）。
标记还帮助模型处理未知单词。例如，一个虚构的单词“chatgpting”可以被拆分为“chatgpt”和“ing”，帮助模型理解其结构。

令牌余额单位少于单词，同时保留的含义多于单个字符。

主要有两种语言模型：掩蔽语言模型和自回归语言模型。它们在预测一个标记时所能使用的信息上有所不同：

掩码语言模型: 一个掩码语言模型被训练来预测序列中任何位置缺失的标记，利用缺失标记前后的上下文。本质上，掩码语言模型被训练能够填补空白。例如，给定上下文“My favorite __ is blue”，掩码语言模型应该预测空白很可能是“color”。

一个著名的掩码语言模型示例是来自变压器的双向编码器表示，简称 BERT (Devlin et al., 2018)。; 截至撰写时，掩码语言模型通常用于非生成任务，如情感分析和文本分类。

它们在需要理解整体上下文的任务中也很有用，例如代码调试，在这些任务中，模型需要理解前面的和后面的代码以识别错误。
自回归语言模型: 自回归语言模型的训练旨在预测序列中的下一个标记，仅使用前面的标记。它预测在“My favorite color is __.”³之后会出现什么。自回归模型可以不断地一个接一个地生成标记。如今，自回归语言模型是文本生成的首选模型，因此它们比掩码语言模型更受欢迎。⁴

图 1-2 显示了这两种类型的语言模型。

A diagram of a chicken crossword

Description automatically generated

注意

在本书中，除非另有明确说明，language model 将指代自回归模型。

语言模型的输出是开放式的。语言模型可以利用其固定的、有穷的词汇构造无限可能的输出。能够生成开放式输出的模型被称为生成模型，因此有了生成式人工智能这个术语。

您可以将语言模型视为一个完成机器：给定一段文本（提示），它会尝试完成该文本。以下是一个示例：

Prompt (from user): "To be or not to be"
Completion (from language model): ", that is the question."

需要注意的是，完成是基于概率的预测，并不保证正确。这种语言模型的概率特性使得它们在使用时既令人兴奋又令人沮丧。我们在第二章中进一步探讨这一点。

听起来很简单，但完成任务是非常强大的。许多任务，包括翻译、总结、编码和解决数学问题，都可以被视为完成任务。

例如，给定提示：“法语中的‘你好吗’是……”，一个语言模型可能能够完成它为：“Comment ça va”，有效地从一种语言翻译到另一种语言。

作为另一个例子，给定提示：

Question: Is this email likely spam? Here’s the email: <email content>
Answer:

语言模型可能能够将其补充为：“可能是垃圾邮件”，这使得该语言模型变成一个垃圾邮件分类器。

虽然完成能力很强，但完成并不等同于进行对话。例如，如果你问一个完成机器一个问题，它可能会通过添加另一个问题来完成你所说的内容，而不是回答这个问题。“后训练”讨论了如何使模型适当地响应用户的请求。

自我监督

语言模型只是众多机器学习算法中的一种。还有用于物体检测、主题建模、推荐系统、天气预报、股价预测等的模型。语言模型有什么特别之处，使它们成为导致 ChatGPT 时刻的扩展方法的中心？

答案是语言模型可以使用自我监督进行训练，而许多其他模型则需要监督。监督是指使用带标签的数据来训练机器学习算法的过程，这可能是昂贵且获取速度较慢的。自我监督有助于克服数据标记瓶颈，以创建更大的数据集供模型学习，从而有效地使模型能够扩展。
Here’s how.

在监督下，您标记示例以展示您希望模型学习的行为，然后在这些示例上训练模型。训练完成后，可以将模型应用于新数据。

例如，要训练一个欺诈检测模型，您使用交易示例，每个示例都标记为“欺诈”或“非欺诈”。一旦模型从这些示例中学习，您就可以使用这个模型来预测一笔交易是否是欺诈。

2010 年代人工智能模型的成功在于监督。引发深度学习革命的模型 AlexNet (Krizhevsky et al., 2012)是经过监督训练的。它被训练来学习如何对超过 100 万个图像分类于 ImageNet 数据集。它将每张图像分类为 1,000 个类别中的一个，例如“汽车”、“气球”或“猴子”。

一个监督的缺点是数据标记既昂贵又耗时。如果一个人标记一张图片要花费 5 美分，那么为 ImageNet 标记一百万张图片将花费 50,000 美元。⁵ 如果你希望两个不同的人对每张图片进行标记——以便你可以交叉检查标签质量——那么费用将是它的两倍。

因为世界上包含的物体远远超过 1000 个，为了扩展模型处理更多物体的能力，您需要添加更多类别的标签。要扩展到 100 万个类别，仅标签成本就会增加到 5000 万美元。

给日常物品贴标签是大多数人无需事先培训就能做到的事情。因此，这可以相对便宜地完成。然而，并非所有的标签任务都那么简单。为英到拉丁语模型生成拉丁语翻译的成本更高。

标记 CT 扫描是否显示癌症迹象将是天文数字。

自我监督有助于克服数据标注瓶颈。在自我监督中，模型可以从输入数据中推断标签，而不需要明确的标签。

语言建模是自监督的，因为每个输入序列同时提供了标签（待预测的标记）和模型可以用来预测这些标签的上下文。例如，句子“I love street food.”提供了六个训练样本，如表 1-1所示。

表 1-1.用于语言建模的句子“I love street food.”的训练样本。
输入（上下文）	输出（下一个 token）
`<BOS>`	`I`
`<BOS>, I`	`love`
`<BOS>, 我, 爱`	`street`
`<BOS>，我，爱，街道`	`food`
`<BOS>, 我, 爱, 街头, 食物`	`.`
`<BOS>, I, love, street, food, .`	`<EOS>`

在表 1-1中，和标记序列的开始和结束。这些标记对于语言模型处理多个序列是必需的。模型通常将每个标记视为一个特殊的令牌。

结束序列标记特别重要，因为它帮助语言模型知道何时结束响应。⁶

注意

自监督与无监督有所不同。在自监督学习中，标签是从输入数据中推断得出的。在无监督学习中，根本不需要标签。

自监督学习意味着语言模型可以从文本序列中学习，而无需任何标签。

因为文本序列无处不在——在书籍、博客文章、文章和 Reddit 评论中——因此可以构建大量训练数据，使语言模型能够扩展到达到LLMs。

LLM，然而，这几乎不是一个科学术语。一个语言模型要多大才可以被认为是大型？今天被认为大的模型明天可能会被认为是微小的。模型的大小通常通过其参数数量来衡量。一个参数是在机器学习模型中通过训练过程更新的变量。⁷ 一般来说，尽管这并不总是正确的，模型拥有的参数越多，其学习所需行为的能力就越强。

当 OpenAI 的第一款生成型预训练变换器（GPT）模型在 2018 年 6 月发布时，它拥有 1.17 亿个参数，这被认为是相当大的。2019 年 2 月，当 OpenAI 推出参数为 15 亿的 GPT-2 时，117 百万被降级为被认为是小的。

截至本书撰写时，拥有 1000 亿参数的模型被认为是大型模型。也许有一天，这个规模会被认为是小型的。

在我们进入下一部分之前，我想提一个通常被视为理所当然的问题：为什么更大的模型需要更多数据？ 更大的模型具备更强的学习能力，因此需要更多的训练数据来最大化它们的性能。⁸ 您也可以在小型数据集上训练大型模型，但这会浪费计算资源。在这个数据集上，您可以使用更小的模型取得相似或更好的结果。

从大型语言模型到基础模型

虽然语言模型能够完成令人难以置信的任务，但它们仅限于文本。作为人类，我们不仅通过语言来感知世界，还通过视觉、听觉、触觉等。能够处理超越文本的数据对于人工智能在现实世界中运作至关重要。

因此，语言模型正在扩展以纳入更多的数据模态。GPT-4V 和 Claude 3 可以理解图像和文本。一些模型甚至可以理解视频、3D 资产、蛋白质结构等。

将更多的数据模态融入语言模型使其更具强大能力。OpenAI 在他们的 GPT-4V 系统卡中指出：“将额外的模态（例如图像输入）纳入LLMs被一些人视为人工智能研究和发展的关键前沿。”

虽然许多人仍称双子座和 GPT-4V 为LLMs，但它们更准确地被描述为基础模型。这个词基础既表示这些模型在 AI 应用中的重要性，也意味着它们可以在不同需求的基础上构建。

基础模型标志着人工智能研究传统结构的突破。长期以来，人工智能研究是按数据模态划分的。自然语言处理（NLP）仅处理文本。计算机视觉仅处理视觉。

仅文本模型可用于翻译和垃圾邮件检测等任务。仅图像模型可用于对象检测和图像分类。仅音频模型可处理语音识别（语音转文本，或 STT）和语音合成（文本转语音，或 TTS）。

可以处理多个数据模态的模型也称为多模态模型。 生成式多模态模型也称为大型多模态模型（LMM）。

如果语言模型仅基于文本生成下一个标记，多模态模型则基于文本和图像标记生成下一个标记，或者生成模型所支持的其他任何模态，如图 1-3所示。

A diagram of a model

Description automatically generated

就像语言模型一样，多模态模型也需要数据来进行扩展。自我监督同样适用于多模态模型。例如，OpenAI 使用了一种称为自然语言监督的自我监督变体来训练他们的语言-图像模型CLIP (OpenAI, 2021)。他们发现（图像，文本）对在互联网上同时出现，而不是手动为每个图像生成标签。

他们能够生成一个包含 4 亿（图像，文本）对的数据集，这个数据集是 ImageNet 的 400 倍大小，而没有人工标注的成本。这个数据集使 CLIP 成为第一个能够在不需要额外训练的情况下推广到多种图像分类任务的模型。

注意

本书使用“基础模型”一词来指代大型语言模型和大型多模态模型。

请注意，CLIP 不是一个生成模型——它并不是为了生成开放式输出而训练的。CLIP 是一个嵌入模型，旨在生成文本和图像的联合嵌入。“嵌入简介”详细讨论了嵌入。目前，你可以将嵌入视为旨在捕捉原始数据含义的向量。像 CLIP 这样的多模态嵌入模型是生成多模态模型的基础，例如 Flamingo、LLaVA 和 Gemini（之前称作 Bard）。

基础模型还标志着从特定任务模型到通用模型的转变。以前，模型通常是为特定任务开发的，例如情感分析或翻译。

用于情感分析的模型无法进行翻译，反之亦然。

基础模型由于其规模和训练方式，能够执行广泛的任务。 开箱即用的通用模型对于许多任务来说相对有效。一个LLM可以同时进行情感分析和翻译。然而，您通常可以调整通用模型，以最大限度地提高其在特定任务上的性能。

图 1-4 显示了 Super-NaturalInstructions 基准用于评估基础模型的任务 (Wang 等, 2022)，提供了基础模型可以执行的任务类型的概念。

想象一下，您正在与一个零售商合作，构建一个应用程序以生成他们网站的产品描述。一个现成的模型可能能够生成准确的描述，但可能无法捕捉到品牌的声音或突出品牌的信息。

生成的描述可能充满了营销语言和陈词滥调。

A diagram of different colored circles

Description automatically generated

有多种技术可以让模型生成您想要的内容。例如，您可以编写详细的说明，并附上理想产品描述的示例。这种方法被称为提示工程。您可以将模型连接到客户评价数据库，以便模型利用这些评价生成更好的描述。使用数据库来补充说明被称为检索增强生成（RAG）。您还可以对模型进行微调——在高质量产品描述的数据集上进一步训练模型。

提示工程、RAG 和微调是三种非常常见的 AI 工程技术，你可以用它们来使模型适应你的需求。本书的其余部分将详细讨论它们。

将现有的强大模型调整为您的任务通常比从头开始为您的任务构建模型要容易得多——例如，十个例子和一个周末对比一百万个例子和六个月。

基础模型使得开发人工智能应用的成本更低，并缩短了上市时间。适应一个模型所需的数据量具体取决于你使用的技术。本书在讨论每种技术时也会涉及这个问题。

然而，任务特定模型仍然有许多好处，例如，它们可能要小得多，从而使它们更快且更便宜。

是自己构建模型还是利用现有模型是一个经典的自建或购买的问题，团队需要自己回答。书中的讨论可以帮助做出这个决定。

从基础模型到人工智能工程

人工智能工程是指在基础模型之上构建应用程序的过程。人们已经构建人工智能应用程序超过十年——这个过程通常被称为机器学习工程或 MLOps（机器学习操作的缩写）。那么，为什么我们现在谈论人工智能工程呢？

如果传统的机器学习工程涉及开发机器学习模型，那么人工智能工程则利用现有模型。

强大的基础模型的可用性和可访问性导致了三个因素，这些因素共同创造了理想条件，使 AI 工程作为一个学科得以迅速发展：

因素 1：通用人工智能能力: 基础模型之所以强大，不仅因为它们能够更好地完成现有任务。它们之所以强大，还因为它们能够完成更多任务。以前被认为不可能的应用现在变得可能，而以前未曾想到的应用也正在出现。

即使是今天认为不可能的应用，明天也可能成为现实。这使得人工智能在生活的更多方面变得更有用，极大地增加了用户群和对人工智能应用的需求。; 例如，由于人工智能现在可以像人类一样写作，有时甚至更好，人工智能可以自动化或部分自动化每一个需要交流的任务，几乎所有的任务都是如此。人工智能被用来写电子邮件、回应客户请求和解释复杂的合同。

任何拥有计算机的人都可以使用工具，这些工具可以即时生成定制的高质量图像和视频，以帮助创建市场营销材料、编辑专业头像、可视化艺术概念、插图书籍等等。

AI 甚至可以用来合成训练数据、开发算法和编写代码，这些都将有助于在未来训练出更强大的模型。
因素 2：增加 AI 投资: ChatGPT 的成功促使了对人工智能的投资急剧增加，既来自风险投资家，也来自企业。随着人工智能应用的构建成本降低和上市速度加快，人工智能的投资回报变得更加吸引人。

公司争相将人工智能融入他们的产品和流程。Scribd 的应用研究高级经理 Matt Ross 告诉我，他的使用案例中估算的人工智能成本从 2022 年 4 月到 2023 年 4 月下降了两个数量级。; 高盛研究估计，到 2025 年，美国的人工智能投资可能接近 1000 亿美元，全球可能达到 2000 亿美元。⁹人工智能常被提及为竞争优势。FactSet发现，在 2023 年第二季度，三分之一的标准普尔 500 公司在财报电话会议中提到人工智能，这一比例比去年增加了三倍。图 1-5显示了 2018 年至 2023 年期间，提到人工智能的标准普尔 500 公司数量。

图 1-5。在 2023 年，提到人工智能的标准普尔 500 公司在财报电话会议中的数量达到了历史最高水平。数据来自 FactSet。; 根据 WallStreetZen 的报道，在财报电话会议中提到人工智能的公司，其股价上涨幅度超过未提到的公司：平均上涨 4.6%，而未提到的公司仅上涨 2.4%。目前尚不清楚这是否是因果关系（人工智能使这些公司更成功）还是相关性（公司因快速适应新技术而成功）。
因素 3：构建 AI 应用的低准入门槛: OpenAI 和其他模型提供商推广的模型即服务方法使得利用 AI 构建应用程序变得更加容易。在这种方法中，模型通过 API 公开，接收用户查询并返回模型输出。

没有这些 API，使用 AI 模型需要基础设施来托管和提供该模型。这些 API 通过单个 API 调用为您提供对强大模型的访问。; 不仅如此，AI 还使得以最少的编码构建应用程序成为可能。首先，AI 可以为您编写代码，使没有软件工程背景的人能够快速将他们的想法转化为代码并展示给用户。

其次，您可以使用简单的英语与这些模型进行交互，而不必使用编程语言。任何人，我是说任何人，现在都可以开发 AI 应用程序。

由于开发基础模型所需的资源，这个过程只能由大型公司（Google、Meta、Microsoft、百度、腾讯）、政府（日本、阿联酋）以及雄心勃勃、资金充足的初创企业（OpenAI、Anthropic、Mistral）来实现。在 2022 年 9 月的一次采访中，OpenAI 的首席执行官 Sam Altman表示，对于绝大多数人来说，最大的机会将是将这些模型适配到特定应用中。

世界迅速抓住这个机会。人工智能工程迅速成为了发展最快的工程学科之一，甚至可能是增长速度最快的学科。人工智能工程的工具的普及速度超过了任何以前的软件工程工具。

在短短两年内，四个开源 AI 工程工具（AutoGPT、Stable Diffusion eb UI、LangChain、Ollama）在 GitHub 上的星标数量已经超过了比特币。

它们有望在星标数量上超过甚至最流行的网页开发框架，包括 React 和 Vue。图 1-6 显示了 AI 工具与比特币、Vue 和 React 的 GitHub 星标增长情况。

2023 年 8 月的一项 LinkedIn 调查显示，添加诸如“生成式 AI”、“ChatGPT”、“提示工程”和“提示制作”等术语的专业人士数量每月平均增加75%。ComputerWorld宣称“教 AI 如何表现是增长最快的职业技能”。

A graph of a graph with different colored lines

Description automatically generated

为什么使用“AI 工程”这个术语？

许多术语被用来描述在基础模型之上构建应用程序的过程，包括机器学习工程、机器学习运维、人工智能运维、大型语言模型运维等。为什么我选择在这本书中使用人工智能工程？

我没有使用“ML 工程”这个术语，因为正如在“AI 工程与 ML 工程”中讨论的那样，处理基础模型与处理传统 ML 模型在几个重要方面存在差异。ML 工程这个术语不足以体现这种区分。不过，ML 工程是一个很好的术语，可以涵盖这两个过程。

我没有使用所有以“Ops”结尾的术语，因为尽管流程中有操作组件，但重点更多是调整（工程）基础模型以满足你的需求。

最后，我对 20 位正在基础模型上开发应用程序的人进行了调查，询问他们会用什么术语来描述他们的工作。大多数人更喜欢AI 工程。我决定采纳大众的意见。

快速增长的人工智能工程师社区展现出了非凡的创意，并具有令人兴奋的各种应用。接下来的部分将探讨一些最常见的应用模式。

基础模型使用案例

如果你还没有开始构建人工智能应用，我希望前面的部分已经说服你，现在是一个很好的时机。如果你有想法中的应用，你可能想跳到 “规划人工智能应用”。如果你在寻找灵感，这一部分涵盖了广泛的行业验证和有前景的用例。

您可以使用基础模型构建的潜在应用程序数量似乎是无穷无尽的。无论您想到什么用例，可能都有相应的人工智能。¹⁰ 无法列出所有人工智能的潜在用例。

甚至试图对这些用例进行分类都很具挑战性，因为不同的调查使用不同的分类。例如，亚马逊网络服务（AWS）将企业生成性人工智能的用例分为三个类别：客户体验、员工生产力和过程优化。2024 年 O’Reilly 调查将这些用例分为八类：编程、数据分析、客户支持、营销文案、其他文案、研究、网页设计和艺术。

一些组织，例如 Deloitte，已根据价值捕获对用例进行了分类，比如成本降低、流程效率、增长和加速创新。对于价值捕获，Gartner 有一个关于 业务连续性 的类别，意味着如果一个组织不采用生成性人工智能，它可能会倒闭。在 2023 年，Gartner 调查的 2,500 名高管中，7%的人提到业务连续性是他们采纳生成性人工智能的动机。

Eloundou et al. (2023) 对不同职业暴露于人工智能的研究非常出色。他们将一项任务定义为暴露，如果人工智能和基于人工智能的软件能够减少至少 50%的完成时间。

一个具有 80%暴露率的职业意味着该职业的 80%任务暴露于外。根据研究，暴露率达到 100%或接近 100%的职业包括翻译员、税务准备员、网页设计师和作家。其中一些已在表 1-2中展示。不出所料，暴露于 AI 之外的职业包括厨师、石匠和运动员。这项研究很好地展示了 AI 适用的用例。

表 1-2。人类标注的与人工智能接触最多的职业。 $α$ 指直接接触人工智能模型，而 $β$ 和 $ζ$ 指接触人工智能驱动的软件。数据来源于 Eloundou 等 (2023)。
组	接触风险最高的职业	% 曝光
人类 $α$	翻译者与口译员调查研究人员诗人、歌词作者和创意作家动物科学家公共关系专家	76.5 75.0 68.8 66.7 66.7
人类 $β$	调查研究人员作家和作者翻译员和翻译家公共关系专家动物科学家	84.4 82.5 82.4 80.6 77.8
人类 $ζ$	数学家税务准备人金融量化分析师作家和作者网络和数字界面设计师人类将 15 种职业标记为“完全暴露”。	100.0 100.0 100.0 100.0 100.0

在分析使用案例时，我考虑了企业和消费者应用。为了了解企业使用案例，我采访了 50 家公司，了解它们的人工智能战略，并阅读了超过 100 个案例研究。

为了理解消费者应用，我检查了 205 个在 GitHub 上至少有 500 个星标的开源 AI 应用程序。¹¹ 我将这些应用程序分为八个组，如表 1-3所示。这里的有限列表最适合作为参考。当你在第 2 章中了解如何构建基础模型，以及在第 3 章中了解如何评估它们时，你也会更好地了解基础模型可以和应该用于哪些用例。

表 1-3。消费者和企业应用中的常见生成性人工智能用例。
类别	消费者使用案例示例	企业使用案例的示例
编码	编码	编码
图像和视频制作	照片和视频编辑设计	演示文稿广告生成
写作	电子邮件社交媒体和博客文章	文案撰写，搜索引擎优化（SEO）报告、备忘录、设计文档
教育	辅导论文评分	员工入职培训员工技能提升培训
对话机器人	通用聊天机器人人工智能助手	客户支持产品副驾驶
信息聚合	摘要与您的医生交谈	摘要市场研究
数据组织	图像搜索 Memex	知识管理文档处理
工作流自动化	旅行规划活动策划	数据提取、录入和注释潜在客户生成

因为基础模型是通用的，基于它们构建的应用程序可以解决许多问题。这意味着一个应用程序可以属于多个类别。例如，一个机器人可以提供陪伴并汇总信息。

一个应用程序可以帮助您从 PDF 中提取结构化数据，并回答有关该 PDF 的问题。

图 1-7 显示了这 205 个开源应用程序中这些用例的分布。请注意，教育、数据组织和写作用例的小比例并不意味着这些用例不受欢迎。这只是意味着这些应用程序不是开源的。

这些应用程序的构建者可能会发现它们更适合企业用例。

A pie chart with different colored circles

Description automatically generated

企业界通常更倾向于风险较低的应用程序。例如，一份2024 a16z Growth report显示，公司更快地部署面向内部的应用程序（内部知识管理），而不是面向外部的应用程序（客户支持聊天机器人），如图 1-8所示。内部应用程序帮助公司发展其人工智能工程专长，同时将与数据隐私、合规性和潜在灾难性故障相关的风险降到最小。

类似地，虽然基础模型是开放式的，可以用于任何任务，但建立在其上的许多应用仍然是封闭式的，例如分类。分类任务更容易评估，这使得其风险更容易估计。

A screenshot of a graph

Description automatically generated

即使在看到数百个人工智能应用程序之后，我仍然每周都会发现让我惊讶的新应用。在互联网的早期，很少有人预见到社交媒体最终会成为互联网的主导使用案例。

随着我们学习如何充分利用人工智能，最终占主导地位的用例可能会让我们感到惊讶。希望这个惊喜是一个好消息。

编码

在多项生成性人工智能调查中，编码无疑是最受欢迎的用例。人工智能编码工具之所以受欢迎，既因为人工智能擅长编码，也因为早期的人工智能工程师是更熟悉编码挑战的程序员。

基础模型在生产中的早期成功之一是代码补全工具 GitHub Copilot，其年度经常性收入在上市仅两年后突破了 1 亿美元。截至本文撰写时，人工智能驱动的编程初创公司已筹集了数亿美金，Magic 筹集了 3.2 亿美元，Anysphere 筹集了 6000 万美元，两者均在 2024 年 8 月。开源编码工具如gpt-engineer和screenshot-to-code在一年内均获得了 5 万个 GitHub 星标，还有许多其他工具正在迅速推出。

除了帮助进行一般编码的工具外，许多工具专门针对特定编码任务。以下是这些任务的示例：

从网页和 PDF 中提取结构化数据（AgentGPT）
将英语转换为代码 (DB-GPT, SQL Chat, PandasAI)
根据设计或截图生成代码，以便将其呈现为一个与给定图像（截图到代码，draw-a-ui）相似的网站
从一种编程语言或框架翻译到另一种（GPT-Migrate, AI Code Translator）
编写文档 (Autodoc)
创建测试 (PentestGPT)
生成提交消息 (AI Commits)

显然，人工智能可以完成很多软件工程任务。问题是人工智能是否能完全自动化软件工程。在一个极端的观点中，英伟达首席执行官詹森·黄预测人工智能将取代人类软件工程师，我们应该停止说孩子们应该学习编程。在一段泄露的录音中，AWS 首席执行官马特·加曼分享了在不久的将来，大多数开发者将停止编程。他并不是说这意味着软件开发者的终结；只是他们的工作将会发生变化。

另一端有许多软件工程师，他们坚信自己永远不会被人工智能取代，既出于技术原因，也出于情感原因（人们不喜欢承认自己可以被取代）。

软件工程由许多任务组成。人工智能在某些任务上表现更好。麦肯锡的研究人员发现，人工智能可以帮助开发人员在文档编写方面提高两倍的生产力，而在代码生成和代码重构方面提高 25%至 50%的生产力。对于高度复杂的任务，几乎没有观察到生产力的改善，如图 1-9所示。在与 AI 编码工具开发者的对话中，许多人告诉我，他们注意到人工智能在前端开发方面的表现要远好于后端开发。

A graph of blue and white bars

Description automatically generated

无论人工智能是否会取代软件工程师，人工智能肯定可以提高他们的生产力。这意味着公司现在可以用更少的工程师完成更多的工作。

人工智能也可能会扰乱外包行业，因为外包的任务往往是公司核心业务之外的简单任务。

图像和视频制作

由于其概率特性，人工智能在创意任务中表现出色。一些最成功的人工智能初创公司都是创意应用，例如用于图像生成的 Midjourney、用于照片编辑的 Adobe Firefly，以及用于视频生成的 Runway、Pika Labs 和 Sora。

在 2023 年底，一岁半的Midjourney已经产生了 2 亿美元的年度经常性收入。截至 2023 年 12 月，在苹果 App Store 中排名前 10 的免费图形与设计应用中，有一半的名称中包含 AI。

我怀疑不久的将来，图形和设计应用程序将默认集成 AI，因此它们的名称中不再需要包含“AI”这个词。第 2 章更详细地讨论了 AI 的概率性质。

现在在社交媒体上使用人工智能生成个人资料照片已变得很普遍，从 LinkedIn 到 TikTok。许多求职者认为，AI 生成的头像可以帮助他们展现最佳形象，并增加他们获得工作的机会。对 AI 生成的个人资料图片的看法发生了显著变化。在 2019 年，Facebook因安全原因禁止使用 AI 生成的个人资料照片的账户。在 2023 年，许多社交媒体应用提供工具，允许用户使用 AI 生成个人资料照片。

对于企业来说，广告和营销迅速开始融入人工智能。¹² 人工智能可以直接生成宣传图片和视频。它可以帮助头脑风暴创意或生成供人类专家进行迭代的初稿。您可以使用人工智能生成多个广告并测试哪个最适合受众。

AI 可以根据季节和地点生成广告的不同变体。例如，您可以使用 AI 在秋季改变叶子的颜色或在冬季向地面添加雪。

写作

人工智能早已被用来辅助写作。如果你使用智能手机，你可能对自动更正和自动补全这两项由人工智能驱动的功能很熟悉。写作是人工智能的一个理想应用，因为我们经常进行写作，这可能是相当繁琐的，并且我们对错误的容忍度较高。

如果一个模型建议了一些你不喜欢的东西，你可以选择忽略它。

对于LLMs擅长写作并不令人惊讶，因为他们接受了文本补全的训练。为了研究 ChatGPT 对写作的影响，麻省理工学院的一项研究（Noy 和 Zhang，2023）给 453 名大学受教育的专业人士分配了特定职业的写作任务，并随机让他们的一半接触 ChatGPT。研究结果显示，与接触 ChatGPT 的人员相比，平均花费时间减少了 40%，输出质量提高了 18%。

ChatGPT 有助于缩小工人之间输出质量的差距，这意味着它对那些写作倾向较低的人更加有帮助。

在实验中接触到 ChatGPT 的工人在实验后两周内报告在真实工作中使用它的可能性是其他人的两倍，而在两个月后这一可能性是其他人的 1.6 倍。

对于消费者而言，使用场景显而易见。许多人使用人工智能帮助他们更好地沟通。你可以在电子邮件中表达愤怒，然后请人工智能使其变得愉快。你可以给出要点，然后得到完整的段落。

几个人声称，他们再也不会在没有先让人工智能改进的情况下发送重要电子邮件。

学生们正在使用人工智能写论文。作家们正在使用人工智能写书。¹³ 许多创业公司已经在利用人工智能生成儿童书籍、同人小说、浪漫小说和幻想小说。与传统书籍不同，人工智能生成的书籍可以是互动式的，因为书籍的情节可以根据读者的喜好而变化。

这意味着读者可以积极参与他们正在阅读的故事创作。一个儿童阅读应用识别出孩子在某些单词上有困难，并围绕这些单词生成故事。

笔记和邮件应用程序，如 Google Docs、Notion 和 Gmail，都使用人工智能来帮助用户改善写作。Grammarly 是一款写作助手应用，调整模型使用户的写作更加流畅、一致和清晰。

AI 的写作能力也可能被滥用。2023 年，纽约时报报道说，亚马逊充斥着劣质的 AI 生成旅游指南书，每本书都有作者介绍、网站和好评，全部都是 AI 生成的。

对于企业来说，人工智能写作在销售、市场营销和一般团队沟通中很常见。许多经理告诉我，他们一直在使用人工智能来帮助他们撰写绩效报告。人工智能可以帮助撰写有效的冷邮件、广告文案和产品描述。

客户关系管理（CRM）应用程序，如 HubSpot 和 Salesforce，也为企业用户提供生成网页内容和外展电子邮件的工具。

人工智能在搜索引擎优化（SEO）方面似乎特别擅长，可能是因为许多人工智能模型是使用来自互联网的数据进行训练，而这些数据中充满了经过搜索引擎优化的文本。

人工智能在搜索引擎优化（SEO）方面表现出色，以至于推动了新一代内容农场的出现。这些农场建立垃圾网站，并填充 AI 生成的内容，以使其在 Google 上获得高排名，从而吸引流量。然后，他们通过广告交易平台出售广告位。2023 年 6 月，NewsGuard 在几乎 400 条来自 141 个热门品牌的广告中识别出这些垃圾 AI 生成的网站。其中一个垃圾网站每天生成 1200 篇文章。如果不采取措施加以遏制，互联网内容的未来将是 AI 生成的，而这将相当黯淡。¹⁴

教育

每当 ChatGPT 出现故障时，OpenAI 的 Discord 服务器上就会涌现出大量学生抱怨无法完成作业。包括纽约市公立学校和洛杉矶联合学区在内的多个教育委员会迅速禁止使用 ChatGPT，担心学生会利用它作弊，但几个月后又撤回了他们的决定。

学校可以将人工智能纳入教学，而不是禁止它，以帮助学生更快地学习。人工智能可以总结教科书并为每个学生生成个性化的讲座计划。我觉得很奇怪，广告是个性化的，因为我们知道每个人都不同，但教育却不是。

人工智能可以帮助将材料调整为最适合每个学生的格式。听觉学习者可以让人工智能大声朗读材料。喜欢动物的学生可以使用人工智能将可视化调整为 featuring 更多动物。

那些觉得阅读代码比数学方程更容易的人可以请求 AI 将数学方程翻译成代码。

人工智能对语言学习特别有帮助，因为你可以让人工智能角色扮演不同的练习场景。Pajak 和 Bicknell (Duolingo, 2022) 发现，在课程创建的四个阶段中，课程个性化是最能从人工智能中受益的阶段，如图 1-10所示。

A white paper with blue text

Description automatically generated

AI 可以生成测试题，包括选择题和开放性问题，并评估答案。AI 可以成为辩论伙伴，因为它在呈现同一主题的不同观点方面比普通人更出色。例如，Khan Academy为学生提供AI 驱动的教学助手，为教师提供课程助手。我见过一种创新的教学方法，教师让学生找出并纠正 AI 生成的文章中的错误。

虽然许多教育公司利用人工智能来构建更好的产品，但许多公司发现自己的市场份额被人工智能抢走了。例如，Chegg 是一家帮助学生完成作业的公司，其股价从 2022 年 11 月 ChatGPT 推出时的 28 美元暴跌至 2024 年 9 月的 2 美元，因为学生们开始寻求人工智能的帮助。

如果风险在于人工智能可以取代许多技能，机会在于人工智能可以作为辅导者来学习任何技能。对于许多技能，人工智能可以帮助某人快速掌握，然后继续独立学习，以变得比人工智能更优秀。

对话机器人

对话机器人是多功能的。它们可以帮助我们查找信息、解释概念和头脑风暴。人工智能可以成为你的伴侣和治疗师。它可以模仿个性，让你与任何你喜欢的人的数字复制品交谈。

数字女友和男友在极短的时间内变得异常流行。许多人已经花更多时间与机器人交谈而不是与人类交流（请参见讨论这里和这里）。一些人担心人工智能会毁掉约会。

在研究中，人们还发现可以使用一组对话机器人来模拟一个社会，从而进行社会动态的研究（Park et al., 2023）。

对于企业来说，最受欢迎的机器人是客户支持机器人。它们可以帮助公司节省成本，同时改善客户体验，因为它们能够比人工客服更快地响应用户。

AI 还可以作为产品副驾驶，引导客户完成一些痛苦和复杂的任务，例如提交保险索赔、报税或查找公司政策。

ChatGPT 的成功引发了一波基于文本的对话机器人。然而，文本并不是对话代理的唯一界面。像 Google 助手、Siri 和 Alexa 这样的语音助手已经存在多年。¹⁵ 3D 对话机器人在游戏中已经很常见，并在零售和营销中获得了关注。

人工智能驱动的 3D 角色的一个应用案例是智能 NPC（非玩家角色）（参见 NVIDIA 对Inworld和Convai的演示）。¹⁶ NPC 在许多游戏的故事情节推进中至关重要。没有人工智能，NPC 通常是按照脚本执行简单动作，并且对话范围有限。人工智能可以使这些 NPC 变得更加智能。智能机器人可以改变现有游戏的动态，如The Sims和Skyrim，并使以前无法实现的新游戏成为可能。

信息聚合

许多人相信，我们的成功取决于我们过滤和消化有用信息的能力。然而，跟上电子邮件、Slack 消息和新闻有时会让人感到不堪重负。幸运的是，AI 伸出了援手。

AI 已被证明能够聚合信息并进行总结。根据 Salesforce 的 2023 生成性 AI 快照研究，74% 的生成性 AI 用户使用它来提炼复杂的想法和总结信息。

对于消费者来说，许多应用可以处理您的文档——合同、披露、论文——并让您以对话的方式检索信息。这个用例也被称为 talk-to-your-docs。人工智能可以帮助您总结网站、研究，并就您选择的话题创建报告。在写这本书的过程中，我发现人工智能对总结和比较论文非常有帮助。

信息汇聚和提炼对企业运营至关重要。更高效的信息汇聚和传播可以帮助组织变得更加精简，因为它减轻了中层管理的负担。当 Instacart 推出内部提示市场时，它发现最受欢迎的提示模板之一是“快速分析”。

此模板要求 AI 总结会议记录、电子邮件和 Slack 对话，包括事实、开放问题和行动项。这些行动项可以自动插入到项目跟踪工具中，并分配给相应的负责人。

人工智能可以帮助您发现有关潜在客户的关键信息，并对竞争对手进行分析。

收集的信息越多，组织这些信息就越重要。信息聚合与数据组织密切相关。

数据组织

未来有一件事是肯定的，那就是我们将继续产生越来越多的数据。智能手机用户将继续拍照和录像。公司将继续记录关于他们的产品、员工和客户的一切。

每年都有数十亿份合同被创建。照片、视频、日志和 PDF 都是非结构化或半结构化数据。以便于后续搜索的方式组织所有这些数据至关重要。

AI 可以帮助实现这一点。AI 可以自动生成关于图像和视频的文本描述，或者帮助将文本查询与匹配这些查询的视觉内容相匹配。像 Google Photos 这样的服务已经在使用 AI 来呈现与搜索查询匹配的图像。¹⁷ Google 图像搜索更进一步：如果没有现有图像满足用户的需求，它可以生成一些。

AI 在数据分析方面非常出色。它可以编写程序生成数据可视化，识别异常值，并进行预测，如收入预测。¹⁸

企业可以利用人工智能从非结构化数据中提取结构化信息，这可以用于组织数据并帮助搜索。

简单的使用案例包括自动提取信用卡、驾驶执照、收据、票据、电子邮件底部的联系信息等中的信息。更复杂的使用案例包括从合同、报告、图表等中提取数据。

预计到 2030 年，智能数据处理（IDP）行业将达到$128.1 亿美元，每年增长 32.9%。

工作流程自动化

最终，人工智能应该尽可能地自动化。对于最终用户来说，自动化可以帮助处理无聊的日常任务，如预订餐厅、申请退款、计划旅行和填写表格。

对于企业来说，人工智能可以自动化重复性任务，例如潜在客户管理、发票处理、报销、管理客户请求、数据录入等。

一个特别令人兴奋的用例是使用 AI 模型合成数据，这些数据可以用来改进模型本身。您可以使用 AI 为您的数据创建标签，并引入人类来改善这些标签。我们在第 8 章中讨论数据合成。

访问外部工具是完成许多任务所必需的。为了预订餐厅，应用程序可能需要权限打开搜索引擎查找餐厅的电话，使用您的手机拨打电话，并将约会添加到您的日历中。

能够规划和使用工具的人工智能称为代理。围绕代理的兴趣几乎达到了痴迷的程度，但这并非完全没有理由。AI 代理有潜力使每个人的生产力大幅提升，并创造出巨大的经济价值。代理是第 6 章的一个核心主题。

探索不同的人工智能应用真的很有趣。我最喜欢的幻想之一就是我可以构建的不同应用程序。然而，并不是所有的应用程序都应该被构建。

下一部分讨论在构建 AI 应用程序之前我们应该考虑什么。

规划人工智能应用

鉴于人工智能似乎无限的潜力，跳入构建应用程序是很有诱惑的。如果你只是想学习并享受乐趣，那就直接跳进去吧。构建是学习的最佳方式之一。

在基础模型的早期阶段，几位人工智能负责人告诉我，他们鼓励团队尝试人工智能应用以提升自身技能。

然而，如果你是为了谋生而这样做，可能值得退后一步，考虑一下你为什么要构建这个以及你应该如何进行。用基础模型构建一个炫酷的演示很简单，但创造一个有利润的产品却很困难。

用例评估

第一个要问的问题是你为什么想要构建这个应用程序。像许多商业决策一样，构建一个 AI 应用程序通常是对风险和机会的回应。以下是不同风险级别的一些例子，按从高到低的顺序排列：

如果你不这样做，使用人工智能的竞争对手可能会让你变得无关紧要。 如果人工智能对你的业务构成重大生存威胁，整合人工智能必须是最高优先事项。在 2023 年Gartner 研究中，7%的人将业务连续性作为他们采用人工智能的理由。这在涉及文档处理和信息汇总的业务中更为常见，例如金融分析、保险和数据处理。

这在广告、网页设计和图像制作等创意工作中也很常见。您可以参考 2023 年的 OpenAI 研究“GPTs are GPTs” (Eloundou et al., 2023)，以查看各行业在 AI 曝光度上的排名。
如果你不这样做，你将错失提升利润和生产力的机会。 大多数公司接受人工智能，因为它带来了机会。人工智能可以帮助大多数，甚至所有的业务运营。人工智能可以通过制作更有效的文案、产品描述和促销视觉内容，使用户获取变得更加便宜。

人工智能可以通过改善客户支持和定制用户体验来提高用户留存率。人工智能还可以帮助销售线索生成、内部沟通、市场研究和竞争对手跟踪。
你还不确定人工智能将在你的业务中发挥什么作用，但你不想被抛在后面。 虽然公司不应追逐每一个热门趋势，但许多公司因等待太久而错失机会（看看柯达、百视达和黑莓）。

将资源投资于了解新型变革性技术如何影响您的业务，如果条件允许，这并不是一个坏主意。在大公司中，这可以是研发部门的一部分。¹⁹

一旦你找到一个好的理由来开发这个用例，你可能会考虑是否必须自己构建它。如果人工智能对你的业务构成生存威胁，你可能想选择内部开发人工智能，而不是将其外包给竞争对手。

然而，如果你使用人工智能来提升利润和生产力，你可能会有很多购买选项，可以节省时间和金钱，同时为你提供更好的性能。

人工智能和人类在应用中的角色

AI 在 AI 产品中扮演的角色影响着应用程序的开发及其需求。Apple有一份很好的文档，解释了 AI 在产品中可以使用的不同方式。以下是与当前讨论相关的三个关键点：

关键或互补: 如果一个应用在没有人工智能的情况下仍然可以工作，那么人工智能就是对该应用的补充。例如，Face ID 在没有人工智能驱动的面部识别的情况下无法工作，而 Gmail 在没有智能撰写的情况下仍然可以工作。; AI 对应用程序越关键，AI 部分就必须越准确和可靠。当 AI 不是应用程序的核心时，人们对错误的接受度更高。
反应性或主动性: 反应性功能根据用户的请求或特定行为显示其响应，而主动性功能在有机会时显示其响应。例如，聊天机器人是反应性的，而谷歌地图上的交通警报是主动的。; 由于反应式功能是响应事件生成的，因此它们通常（但不总是）需要快速发生。另一方面，主动功能可以预先计算并在适当的时候显示，因此延迟的重要性较低。; 因为用户并不请求主动功能，因此如果质量较低，他们可能会将其视为干扰或恼人。因此，主动预测和生成通常具有更高的质量标准。
动态或静态: 动态特性会随着用户反馈不断更新，而静态特性则会定期更新。例如，面部识别需要随着人们的脸部随着时间的变化而更新。

然而，Google Photos 中的对象检测可能仅在 Google Photos 升级时更新。; 在人工智能的情况下，动态特征可能意味着每个用户都有自己的模型，持续根据他们的数据进行微调，或其他个性化机制，比如 ChatGPT 的记忆功能，这允许 ChatGPT 记住每个用户的偏好。

然而，静态特征可能对一组用户仅有一个模型。如果是这样，这些特征仅在共享模型更新时更新。

澄清人类在应用中的角色也很重要。AI 是为人类提供背景支持，直接做出决策，还是两者兼而有之？例如，对于客户支持聊天机器人，AI 的响应可以以不同的方式使用：

AI 显示了几个响应，供人类代理参考以更快地写出回复。
人工智能仅对简单请求作出响应，并将更复杂的请求转交给人类。
AI 直接响应所有请求，无需人工参与。

将人类纳入人工智能的决策过程称为人类在环。

微软（2023）提出了一个逐步增加产品中人工智能自动化的框架，他们称之为爬行-行走-奔跑：

Crawl 意味着人类参与是必须的。
Walk 意味着 AI 可以直接与内部员工互动。
运行意味着增加自动化，可能包括与外部用户的直接 AI 互动。

随着人工智能系统质量的提高，人类的角色可能会随时间而变化。例如，在一开始，当你仍在评估人工智能的能力时，你可能会使用它为人类代理生成建议。

如果人类代理的接受率很高，例如，95%的 AI 建议的简单请求的响应被人类代理逐字使用，那么您可以让客户直接与 AI 互动以处理这些简单请求。

AI 产品的防御能力

如果你将人工智能应用作为独立产品出售，那就必须考虑它们的防御能力。低门槛既是福音也是诅咒。如果对你来说容易构建，那么对你的竞争对手来说也容易。

你有哪些护城河来保护你的产品？

在某种程度上，在基础模型之上构建应用程序意味着在这些模型之上提供一层。²⁰ 这也意味着，如果底层模型的能力扩展，您提供的层可能会被模型所取代，从而使您的应用程序变得过时。

想象一下，构建一个基于 ChatGPT 的 PDF 解析应用程序，前提是 ChatGPT 无法很好地解析 PDF 或无法大规模地进行解析。如果这一假设不再成立，你的竞争力将会减弱。

然而，即便在这种情况下，如果基于开源模型构建一个 PDF 解析应用程序，这仍然是有意义的，因其使您的解决方案面向希望在内部托管模型的用户。

一家大型风险投资公司的首席合伙人告诉我，她见过许多初创公司，它们的整个产品可以成为 Google Docs 或 Microsoft Office 的一个功能。

如果他们的产品成功了，什么会阻止谷歌或微软在两周内分配三名工程师来复制这些产品呢？

在人工智能领域，通常有三种竞争优势：技术、数据和分销——将产品展示给用户的能力。对于基础模型，大多数公司的核心技术将会相似。

分销优势很可能属于大公司。

数据优势更为微妙。大公司可能拥有更多现有数据。然而，如果一家初创公司能够率先进入市场并收集足够的使用数据以不断改进其产品，那么数据将成为他们的护城河。

即使在无法直接使用用户数据训练模型的情况下，使用信息也能提供对用户行为和产品缺陷的宝贵洞察，这些洞察可以用来指导数据收集和训练过程。²¹

有很多成功的公司，其最初的产品本可以成为更大产品的功能。Calendly 原本可以是 Google Calendar 的一个功能。Mailchimp 原本可以是 Gmail 的一个功能。Photoroom 原本可以是 Google Photos 的一个功能。²² 许多初创公司最终超越了更大的竞争对手，开始时建立了这些更大竞争对手所忽视的功能。也许你们可以成为下一个。

设定期望

一旦你决定自己构建这个惊人的人工智能应用程序，下一步就是弄清楚成功的标准是什么：你将如何衡量成功？最重要的指标是这将如何影响你的业务。

例如，如果它是一个客户支持聊天机器人，业务指标可以包括以下内容：

您希望聊天机器人自动处理多少百分比的客户消息？
聊天机器人应该允许您处理多少条消息？
使用聊天机器人你能多快回应？
聊天机器人可以为您节省多少人力劳动？

聊天机器人可以回答更多消息，但这并不意味着用户会感到满意，因此跟踪客户满意度和一般客户反馈非常重要。“用户反馈”讨论了如何设计反馈系统。

为了确保产品在准备好之前不会展示给客户，请明确其有用性阈值的期望：它必须足够好才能被认为有用。有用性阈值可能包括以下指标组：

测量聊天机器人回复质量的质量指标。
延迟指标包括 TTFT（第一次令牌的时间）、TPOT（每个输出令牌的时间）和总延迟。什么被视为可接受的延迟取决于您的用例。

如果您所有的客户请求目前都是由人工处理，且中位响应时间为一个小时，那么任何比这个更快的响应时间可能都足够了。
成本指标：每个推理请求的成本是多少。
其他指标如可解释性和公平性。

如果你还不确定想要使用哪些指标，别担心。本书的其余部分将涵盖许多这些指标。

里程碑计划

一旦设定了可衡量的目标，您就需要一个计划来实现这些目标。实现目标的方法取决于您的起点。评估现有模型以了解其能力。现成模型越强大，您需要做的工作就越少。

例如，如果您的目标是自动化 60% 的客户支持工单，而您想要使用的现成模型已经可以自动化 30% 的工单，那么您需要投入的努力可能会少于如果它根本无法自动化任何工单的情况。

在评估后，您的目标可能会发生变化。例如，在评估后，您可能会意识到将应用程序推向有用性阈值所需的资源将超过其潜在回报，因此，您不再想追求它。

规划一个 AI 产品需要考虑其最后一公里的挑战。基础模型的初步成功可能会产生误导。由于基础模型的基本能力已经相当出色，因此构建一个有趣的演示可能不会花费太多时间。

然而，一个好的初步演示并不能保证最终产品的质量。构建一个演示可能只需一个周末，但构建一个产品可能需要几个月，甚至几年。

在论文《UltraChat》中，Ding et al. (2023) 共享了 “从 0 到 60 的旅程很简单，而从 60 到 100 的进展却变得异常具有挑战性。” LinkedIn (2024) 也分享了同样的看法。他们花了一个月的时间才实现他们想要的 80%的体验。这一初步成功让他们严重低估了改进产品所需的时间。他们发现，最终超越 95%又花了四个月的时间。

花费了大量时间来解决产品的问题和处理幻觉。每取得 1%的进展都非常缓慢，这令人沮丧。

维护

产品规划不仅仅是在实现其目标后就结束。您需要考虑这个产品可能随着时间的推移而如何变化，以及它应该如何维护。AI 产品的维护面临着 AI 快速变化的额外挑战。

在过去十年中，人工智能领域发展迅速。未来十年它可能还会继续迅速发展。基于当前基础模型的构建意味着要决心乘坐这列高速列车。

许多变化是好的。例如，许多模型的局限性正在得到解决。上下文长度变得更长。模型输出变得更好。模型推理，即在给定输入的情况下计算输出的过程，变得更快且更便宜。图 1-11显示了 2022 年至 2024 年间在大规模多任务语言理解（MMLU）(Hendrycks et al., 2020)这一流行基础模型基准上推理成本和模型性能的演变。

A graph with numbers and a number of points

Description automatically generated with medium confidence

然而，即使是这些良好的变化也可能在你的工作流程中造成摩擦。你必须时刻保持警惕，并对每一项技术投资进行成本效益分析。今天最佳的选择在明天可能变成最差的选择。

您可能决定在内部构建一个模型，因为这似乎比支付模型提供商的费用更便宜，但在三个月后发现模型提供商的价格已经降了一半，使得内部构建成为昂贵的选择。

您可能会投资于第三方解决方案，并围绕它定制您的基础设施，但供应商可能会在未能获得资金后倒闭。

有些变化更容易适应。例如，随着模型提供者趋向于相同的 API，替换一个模型 API 为另一个变得更加容易。

然而，由于每个模型都有其独特之处、优点和缺点，使用新模型的开发者需要调整他们的工作流程、提示和数据以适应这个新模型。

没有适当的版本控制和评估基础设施，这个过程可能会造成很多麻烦。

有些变化更难适应，尤其是与法规相关的变化。围绕人工智能的技术被许多国家视为国家安全问题，这意味着包括计算、人才和数据在内的人工智能资源受到严格监管。

例如，欧洲的一般数据保护法规（GDPR）的引入，估计使企业需要花费$90 亿来达到合规要求。计算资源的可用性可能会在一夜之间发生变化，因为新法律对谁可以购买和销售计算资源的限制越来越多（见美国 2023 年 10 月的行政命令）。如果您的 GPU 供应商突然被禁止向您的国家销售 GPU，您将面临麻烦。

某些变化甚至可能是致命的。例如，关于知识产权（IP）和人工智能使用的法规仍在不断发展。如果你将产品建立在一个使用他人数据训练的模型之上，你能否确定你产品的知识产权将始终属于你？

我谈过的许多以知识产权为重的公司，比如游戏工作室，因担心后续失去他们的知识产权而犹豫是否使用人工智能。

一旦您决定构建一个 AI 产品，让我们来看看构建这些应用所需的工程技术栈。

人工智能工程栈

人工智能工程的快速增长也引发了大量的炒作和错失恐惧症（FOMO）。每天推出的新工具、技术、模型和应用数量令人难以应对。

与其试图跟上不断变化的沙子，不如让我们深入研究人工智能的基本构建块工程。

要理解人工智能工程，就必须认识到人工智能工程是从机器学习工程演变而来的。当一家公司开始尝试基础模型时，让其现有的机器学习团队主导该工作是很自然的。

一些公司将人工智能工程与机器学习工程视为相同，如图 1-12所示。

A screenshot of a computer

Description automatically generated

一些公司为人工智能工程设定了单独的职位描述，如图 1-13所示。

无论组织将人工智能工程师和机器学习工程师放在什么位置，他们的角色都有显著的重叠。现有的机器学习工程师可以将人工智能工程添加到他们的技能列表中，以拓展他们的就业前景。

然而，也有一些 AI 工程师没有以前的机器学习经验。

为了更好地理解人工智能工程以及它与传统机器学习工程的区别，以下章节将分解人工智能应用构建过程的不同层次，并研究每一层在人工智能工程和机器学习工程中的作用。

人工智能堆栈的三层

任何 AI 应用程序堆栈都有三个层次：应用程序开发、模型开发和基础设施。当开发 AI 应用程序时，您可能会从最上层开始，然后根据需要向下移动：

应用开发: 随着模型的广泛可用，任何人都可以使用它们来开发应用程序。这是过去两年中最活跃的层次，并且仍在快速发展。应用程序开发涉及为模型提供良好的提示和必要的上下文。

该层需要严格评估。好的应用程序也需要好的接口。
模型开发: 该层提供用于开发模型的工具，包括建模、训练、微调和推理优化的框架。由于数据是模型开发的核心，因此该层还包含数据集工程。模型开发还需要严格的评估。
基础设施: 底部是堆栈的基础设施，包括模型服务、数据和计算管理以及监控的工具。

这三层及每层的职责示例如图 1-14所示。

A diagram of a software development

Description automatically generated

为了了解基础模型如何影响生态系统，2024 年 3 月，我在 GitHub 上搜索了所有至少有 500 颗星的与 AI 相关的仓库。鉴于 GitHub 的普及，我认为这些数据可以很好地代表生态系统的情况。

在我的分析中，我还包括了应用程序和模型的存储库，它们分别是应用程序开发和模型开发层的产品。我发现总共有 920 个存储库。图 1-15 显示了每个类别每月的存储库累计数量。

A graph of a number of people

Description automatically generated

数据显示，2023 年的 AI 工具数量大幅增加，这是在 Stable Diffusion 和 ChatGPT 推出后发生的。2023 年，增长幅度最大的类别是应用程序和应用程序开发。

基础设施层有所增长，但增长幅度远低于其他层。这是可以预料的。尽管模型和应用发生了变化，但核心基础设施需求——资源管理、服务、监控等——仍然保持不变。

这把我们带到了下一个要点。尽管基础模型的兴奋和创造力达到了前所未有的水平，但构建人工智能应用的许多原则仍然是相同的。
For enterprise use cases, AI applications still need to solve business problems, and, therefore, it’s still essential to map from business metrics to ML metrics and vice versa. You still need to do systematic experimentation.

在经典的机器学习工程中，你会尝试不同的超参数。对于基础模型，则会尝试不同的模型、提示、检索算法、采样变量等。（采样变量的讨论见第 2 章。）我们仍希望使模型运行得更快、更便宜。建立反馈循环仍然很重要，这样我们才能通过生产数据对应用进行迭代改进。

This means that much of what ML engineers have learned and shared over the last decade is still applicable. This collective experience makes it easier for everyone to begin building AI applications.

然而，在这些持久原则之上，构建了许多独特于人工智能工程的创新，我们将在本书中探讨这些创新。

人工智能工程与机器学习工程

虽然部署 AI 应用的始终如一的原则令人安心，但理解事物如何变化也同样重要。

这对希望将现有平台适应新的 AI 应用场景的团队以及对学习哪些技能以在新市场中保持竞争力感兴趣的开发者来说是有帮助的。

At a high level, building applications using foundation models today differs from traditional ML engineering in three major ways:

没有基础模型，您必须为自己的应用程序训练自己的模型。通过人工智能工程，您可以使用他人为您训练的模型。这意味着人工智能工程更少关注建模和训练，而更多关注模型适应。
人工智能工程使用的模型比传统机器学习工程更大，消耗更多计算资源，并且延迟更高。这意味着对高效训练和推理优化的压力更大。

计算密集型模型的一个推论是，现在许多公司需要更多的 GPU，并且使用比之前更大的计算集群，这意味着需要更多知道如何使用 GPU 和大型集群的工程师。²³
AI 工程涉及可以生成开放式输出的模型。开放式输出赋予模型用于更多任务的灵活性，但它们也更难评估。这使得评估在 AI 工程中成为一个更大的问题。

总之，AI 工程与 ML 工程的不同之处在于，它更少关注模型开发，而更多关注模型的调整和评估。

我在这一章中提到了几次模型适应，因此在我们继续之前，我想确保我们对模型适应的意义达成一致。

一般来说，模型适应技术可以分为两类，具体取决于它们是否需要更新模型权重。

基于提示的技术，包括提示工程，能够在不更新模型权重的情况下适应模型。 你通过提供指令和上下文来适应模型，而不是改变模型本身。提示工程更容易上手，并且需要的数据更少。许多成功的应用程序仅通过提示工程建立。

它的易用性使您可以尝试更多模型，这增加了您找到意外适合您应用的模型的机会。然而，提示工程可能不足以应对复杂任务或对性能要求严格的应用。

微调另一方面，需要更新模型权重。 您通过对模型本身进行更改来调整模型。一般而言，微调技术更复杂，并且需要更多的数据，但它们可以显著提高模型的质量、延迟和成本。

许多事情在不改变模型权重的情况下是不可能实现的，比如将模型适应于它在训练期间没有接触过的新任务。

现在，让我们仔细看看应用开发和模型开发层，以了解每个层级如何随着人工智能工程的进步而变化，首先从现有的机器学习工程师更熟悉的内容开始。

本节概述了开发 AI 应用程序所涉及的不同过程。这些过程是如何运作的将在本书中讨论。

模型开发

模型开发 是与传统机器学习工程最常关联的层。它有三个主要责任：建模和训练、数据集工程以及推理优化。

评估也是必需的，但由于大多数人在应用开发层首先会接触到它，我将在下一个部分讨论评估。

建模与训练

建模和训练是指提出模型架构、训练模型和微调模型的过程。这类工具的例子包括谷歌的 TensorFlow、Hugging Face 的 Transformers 和 Meta 的 PyTorch。

开发机器学习模型需要专业的机器学习知识。

它需要了解不同类型的机器学习算法（例如聚类、逻辑回归、决策树和协同过滤）和神经网络架构（例如前馈网络、递归网络、卷积网络和变换器）。

这还需要理解模型是如何学习的，包括梯度下降、损失函数、正则化等概念。

With the availability of foundation models, ML knowledge is no longer a must-have for building AI applications. I’ve met many wonderful and successful AI application builders who aren’t at all interested in learning about gradient descent.

然而，机器学习知识仍然非常宝贵，因为它扩展了您可以使用的工具集，并在模型未按预期工作时帮助故障排除。

关于训练、预训练、微调和后训练之间的差异

训练总是涉及到改变模型权重，但并非所有对模型权重的更改都构成训练。例如，量化是减少模型权重精度的过程，技术上改变了模型的权重值，但不被视为训练。

术语训练通常可以用来替代预训练、微调和后训练，这些术语指的是不同的训练阶段：

预训练: 预训练是指从头开始训练一个模型——模型权重是随机初始化的。对于LLMs，预训练通常涉及训练一个用于文本补全的模型。在所有训练步骤中，预训练通常是资源消耗最多的。

对于 InstructGPT 模型，预训练占用了整体计算和数据资源的98%。预训练也需要很长时间。预训练期间的小错误可能会导致显著的财务损失，并极大地拖延项目的进度。由于预训练资源密集的特性，这已经成为只有少数人能够实践的艺术。

然而，具有大型模型预训练专业知识的人才非常抢手。²⁴
微调: 微调意味着继续训练一个之前训练过的模型——模型权重是从之前的训练过程中获得的。

因为模型已经从预训练中获得了某些知识，微调通常需要的资源（例如数据和计算）比预训练少。
后训练: 许多人使用后训练来指代在预训练阶段之后训练模型的过程。从概念上讲，后训练和微调是相同的，可以互换使用。然而，有时人们可能会用它们来表示不同的目标。

通常是在模型开发者进行后期训练时进行的。例如，OpenAI 可能在发布之前对模型进行后期训练，以使其更好地遵循指令。当应用程序开发者进行时，这被称为微调。

例如，您可能会对一个 OpenAI 模型（该模型可能已经经过后训练）进行微调，以使其适应您的需求。

预训练和后训练构成了一个光谱。²⁵ 它们的流程和工具非常相似。它们的差异在第 2 章和第 7 章中进一步探讨。

有些人用“训练”这个词来指代提示工程，这并不正确。我读了一篇商业内幕文章，作者说她训练 ChatGPT 模仿她年轻时的自己。她通过将自己童年的日记条目输入 ChatGPT 来实现这一点。通俗来说，作者对“训练”一词的使用是正确的，因为她在教模型做某事。但从技术上讲，如果你通过输入到模型中的上下文来教模型该做什么，你就是在进行提示工程。同样，我看到有人在做提示工程时使用“微调”这个词。

数据集工程

数据集工程是指策划、生成和注释训练和调整 AI 模型所需的数据。

在传统的机器学习工程中，大多数用例是封闭式的——模型的输出只能在预定义的值中。比如，只有两个可能输出的垃圾邮件分类，“垃圾邮件”和“非垃圾邮件”，就是封闭式的。然而，基础模型则是开放式的。

标注开放式查询比标注封闭式查询要困难得多——判断一封电子邮件是否是垃圾邮件比写一篇论文要简单得多。因此，数据标注对人工智能工程来说是一个更大的挑战。

另一个区别是传统的机器学习工程更倾向于处理表格数据，而基础模型则处理非结构化数据。

在人工智能工程中，数据处理更多地涉及去重、分词、上下文检索和质量控制，包括去除敏感信息和有害数据。数据集工程是第 8 章的重点。

许多人认为，由于模型现在成为商品，数据将成为主要的差异化因素，数据集工程的重要性前所未有。你需要多少数据取决于你使用的适配器技术。

从头训练一个模型通常需要比微调更多的数据，而微调又需要比提示工程更多的数据。

无论你需要多少数据，对数据的专业知识在审查模型时都是有用的，因为其训练数据提供了关于该模型优势和劣势的重要线索。

推理优化

推理优化 意味着使模型更快和更便宜。推理优化一直是机器学习工程中重要的部分。用户从来不会拒绝更快的模型，公司也总能从更便宜的推理中受益。

然而，随着基础模型的规模扩大，推理成本和延迟也随之增加，推理优化变得更加重要。

一个基础模型的挑战是它们通常是自回归的——标记是顺序生成的。如果模型生成一个标记需要 10 毫秒，那么生成 100 个标记的输出将需要一秒钟，对于更长的输出甚至需要更多时间。随着用户越来越不耐烦，将人工智能应用的延迟降低到100 毫秒的延迟，这是典型互联网应用所期望的，成为一个巨大的挑战。推理优化已成为工业和学术界的一个活跃子领域。

不同类别的模型开发重要性随着人工智能工程的发展变化的总结显示在表 1-4 中。

表 1-4. 基础模型的出现如何改变了模型开发的不同职责。
类别	使用传统机器学习构建	使用基础模型进行构建
建模与训练	训练一个从零开始的模型需要机器学习知识	ML 知识是可有可无的，而不是必需的^a
数据集工程	关于特征工程的更多信息，特别是针对表格数据的内容	少些关于特征工程，更多关于数据去重、标记化、上下文检索和质量控制
推理优化	重要	更重要的是
^a 许多人会对这个说法表示质疑，认为机器学习知识是必不可少的。

推理优化技术，包括量化、蒸馏和并行处理，在第 7 章到第 9 章中进行了讨论。

应用开发

在传统的机器学习工程中，团队使用他们的专有模型构建应用程序，模型质量是一个差异化因素。而在基础模型中，许多团队使用相同的模型，差异化必须通过应用开发过程来实现。

应用开发层包括以下职责：评估、提示工程和 AI 接口。

评估

评估是关于降低风险和发现机会的。评估在整个模型适应过程中都是必要的。

评估是必要的，以选择模型、基准进展、确定应用程序是否准备好部署，并检测生产中的问题和改进机会。

在机器学习工程中，评估一直很重要，但对于基础模型来说，评估变得更加重要，原因有很多。评估基础模型的挑战在第三章中进行了讨论。总的来说，这些挑战主要源于基础模型的开放性和扩展能力。

例如，在封闭式的机器学习任务中，如欺诈检测，通常会有预期的真实值，您可以将模型的输出与之进行比较。如果模型的输出与预期输出不同，您就知道模型是错误的。

然而，对于像聊天机器人这样的任务，每个提示都有很多可能的响应，因此不可能整理出一份详尽的真实答案列表来与模型的响应进行比较。

众多适应技术的存在也使评估变得更加困难。一个在某种技术下表现不佳的系统，在另一种技术下可能表现得更好。当谷歌在 2023 年 12 月推出 Gemini 时，他们声称 Gemini 在 MMLU 基准测试中优于 ChatGPT（Hendrycks 等，2020）。谷歌使用一种名为CoT@32的提示工程技术对 Gemini 进行了评估。在这一技术中，Gemini 展示了 32 个示例，而 ChatGPT 仅展示了 5 个示例。当两者都展示五个示例时，ChatGPT 的表现更好，如表 1-5所示。

表 1-5。不同的提示可以导致模型表现截然不同，正如在 Gemini 的技术报告中所见（2023 年 12 月）。
	双子座超越版	双子座专业版	GPT-4	GPT-3.5	PaLM 2-L	Claude 2	Inflection-2	Grok 1	Llama-2
MMLU 性能	90.04% CoT@32	79.13% CoT@8	87.29% CoT@32 （通过 API）	70% 5-shot	78.4% 5-shot	78.5% 5-shot CoT	79.6% 5-shot	73.0% 5-shot	68.0%
MMLU 性能	83.7% 5-shot	71.8% 5-shot	86.4% 5-shot (reported)

提示工程与上下文构建

提示工程是指让人工智能模型仅通过输入表达期望的行为，而无需更改模型权重。Gemini 评估案例突显了提示工程对模型性能的影响。

通过使用不同的提示工程技术，Gemini Ultra 在 MMLU 上的表现从 83.7%提高到 90.04%。

仅凭提示就能让模型做出惊人的事情是可能的。正确的指令可以让模型以您选择的格式执行您想要的任务。提示工程不仅仅是告诉模型该做什么。

这也是关于为模型提供必要的上下文和工具以完成特定任务。对于需要长上下文的复杂任务，您可能还需要为模型提供一个内存管理系统，以便模型能够跟踪其历史。第 5 章讨论了提示工程，而第 6 章讨论了上下文构建。

AI 接口

AI 接口是指为最终用户创建一个与您的 AI 应用程序交互的接口。在基础模型出现之前，只有具备足够资源的组织才能开发 AI 模型和应用程序。

这些应用程序通常嵌入到组织的现有产品中。例如，欺诈检测嵌入到 Stripe、Venmo 和 PayPal 中。推荐系统是社交网络和媒体应用程序的一部分，如 Netflix、TikTok 和 Spotify。

通过基础模型，任何人都可以构建 AI 应用程序。您可以将 AI 应用程序作为独立产品提供，也可以将其嵌入到其他产品中，包括由其他人开发的产品。

例如，ChatGPT 和 Perplexity 是独立产品，而 GitHub 的 Copilot 通常作为 VSCode 中的插件使用，Grammarly 通常作为 Google Docs 的浏览器扩展使用。

Midjourney 可以通过其独立的网页应用程序使用，也可以通过其在Discord中的集成使用。

需要有一些工具能够提供独立 AI 应用程序的接口，或者使 AI 轻松集成到现有产品中。以下是一些在 AI 应用程序中越来越受欢迎的接口：

独立的网页、桌面和移动应用程序。²⁶
允许用户在浏览时快速查询 AI 模型的浏览器扩展。
集成到 Slack、Discord、微信和 WhatsApp 等聊天应用中的聊天机器人。
许多产品，包括 VSCode、Shopify 和 Microsoft 365，提供 API，使开发人员能够将 AI 集成到他们的产品中作为插件和附加组件。这些 API 也可以被 AI 代理用来与世界互动，如第 6 章中所讨论的。

尽管聊天界面是最常用的，AI 接口也可以是基于语音的（例如语音助手）或具身的（例如在增强现实和虚拟现实中）。

这些新的 AI 界面也意味着收集和提取用户反馈的新方式。对话界面使用户更容易用自然语言提供反馈，但提取这些反馈却更困难。用户反馈设计在第 10 章中讨论。

不同类别的应用开发在人工智能工程下的重要性变化的总结见于表 1-6。

表 1-6。在人工智能工程和机器学习工程的应用开发中不同类别的重要性。
类别	使用传统机器学习构建	使用基础模型进行构建
AI 接口	不太重要	重要
提示工程	不适用	重要
评估	重要	更重要

AI 工程与全栈工程

对应用开发，特别是界面的重视增加，使得人工智能工程越来越接近全栈开发。²⁷ 界面的重要性上升导致了人工智能工具设计的转变，以吸引更多的前端工程师。传统上，机器学习工程以 Python 为中心。在基础模型出现之前，最流行的机器学习框架主要支持 Python API。今天，Python 仍然很受欢迎，但 JavaScript API 的支持也在增加，包括LangChain.js、Transformers.js、OpenAI 的 Node 库和Vercel 的 AI SDK。

虽然许多 AI 工程师来自传统的机器学习背景，但越来越多的工程师则来自网页开发或全栈背景。

全栈工程师相较于传统的机器学习工程师的一个优势是他们能够快速将想法转化为演示，获取反馈并进行迭代。

在传统的机器学习工程中，您通常从收集数据和训练模型开始。

产品的构建排在最后。然而，随着今天 AI 模型的普遍可用，可以先从产品构建开始，只有在产品显示出潜力后，才投资于数据和模型，如图 1-16所示。

A close-up of arrows

Description automatically generated

在传统的机器学习工程中，模型开发和产品开发通常是分离的过程，许多组织中的机器学习工程师很少参与产品决策。

然而，在基础模型方面，AI 工程师往往更深入地参与产品的构建。

摘要

我希望这一章能够实现两个目的。一个是解释人工智能工程作为一门学科的出现，这得益于基础模型的可用性。二是概述在这些模型之上构建应用所需的过程。

我希望这一章达到了这个目标。作为概述章节，它只是轻轻触及了许多概念。这些概念将在本书的其余部分进一步探讨。

本章讨论了近年来人工智能的快速发展。它回顾了一些最显著的转变，从语言模型到大型语言模型的过渡，这得益于一种称为自我监督的训练方法。

它随后追踪了语言模型如何结合其他数据模态以成为基础模型，以及基础模型如何催生了 AI 工程。

AI 工程的快速增长是受到基础模型新兴能力所支持的众多应用的推动。本章讨论了一些对消费者和企业来说最成功的应用模式。

尽管已经有令人难以置信的数量的人工智能应用在生产中，但我们仍然处于人工智能工程的早期阶段，还有无数创新尚待开发。

在构建应用程序之前，一个重要但常常被忽视的问题是你是否应该构建它。本章讨论了这个问题以及构建 AI 应用程序的主要考虑因素。

虽然人工智能工程是一个新术语，但它是从机器学习工程演变而来的，后者是涉及构建所有机器学习模型应用的总体学科。许多机器学习工程的原则仍然适用于人工智能工程。

然而，AI 工程也带来了新的挑战和解决方案。本章的最后一部分讨论了 AI 工程堆栈，包括它是如何从机器学习工程中变化而来的。

人工智能工程中一个特别难以用文字表达的方面是社区所带来的大量集体精力、创造力和工程才能。

这种集体热情往往令人感到不堪重负，因为很难跟上似乎不断发生的新技术、发现和工程壮举。

一个安慰是，由于人工智能擅长信息聚合，它可以帮助我们汇总和总结所有这些新更新。但工具的帮助仅限于一定程度。一个领域越是复杂，拥有一个框架来帮助我们导航就越重要。

本书旨在提供这样一个框架。

本书的其余部分将逐步探讨这个框架，从人工智能工程的基本构建块开始：使许多令人惊叹的应用成为可能的基础模型。

¹ 在本书中，我使用传统机器学习来指代所有基础模型之前的机器学习。

² 对于非英语语言，单个 Unicode 字符有时可以用多个标记表示。

³ 自回归语言模型有时被称为因果语言模型。

⁴ 从技术上讲，像 BERT 这样的掩蔽语言模型如果用心去尝试，也可以用于文本生成。

⁵ 实际的数据标注成本因多个因素而异，包括任务的复杂性、规模（较大的数据集通常导致每个样本成本较低）以及标注服务提供商。例如，截至 2024 年 9 月，Amazon SageMaker Ground Truth 对于标注少于 50,000 张图片的费用为每张 8 美分，但对于标注超过 1 百万张图片的费用仅为每张 2 美分。

⁶ 这类似于人类知道何时停止交谈的重要性。

⁷ 在学校，我被教导模型参数包括模型权重和模型偏置。然而，今天我们通常用模型权重来指代所有参数。

⁸ 大型模型需要更多的训练数据似乎违反直觉。如果一个模型更强大，难道它不应该需要更少的实例来学习吗？然而，我们并不是试图让大型模型在相同数据下匹配小型模型的表现。

我们正在努力最大化模型性能。

⁹ 作为比较，美国公立小学和中学的总支出约为 9000 亿美元，仅为美国在人工智能投资的九倍。

¹⁰ 有趣的事实：截至 2024 年 9 月 16 日，网站 theresanaiforthat.com 列出了 16,814 个人工智能用于 14,688 个任务和 4,803 个工作。

¹¹ 探索不同的人工智能应用可能是我写这本书时最喜欢的事情之一。看到人们所构建的东西真的很有趣。您可以找到我跟踪的开源人工智能应用列表。该列表每 12 小时更新一次。

¹² 因为企业通常在广告和营销上花费大量资金，因此在这方面的自动化可以带来巨大的节省。平均而言，一家公司预算的 11%用于营销。见 “不同产业的营销预算” (Christine Moorman, WSJ, 2017)。

¹³ 我发现人工智能在写这本书的过程中非常有帮助，我可以看到人工智能将能够自动化写作过程中的许多部分。

在写小说时，我经常请求 AI brainstorm 想法，看看它认为接下来会发生什么或一个角色可能如何对情况做出反应。我仍在评估哪种类型的写作可以自动化，哪种类型的写作不能。

¹⁴ 我的假设是，我们会变得对互联网内容极度不信任，以至于只阅读我们信任的人或品牌生成的内容。

¹⁵ 让我惊讶的是，苹果和亚马逊将生成性人工智能的进展融入 Siri 和 Alexa 所需的时间是如此之长。一位朋友认为，这可能是因为这些公司对质量和合规性有更高的标准，开发语音界面所需的时间比聊天界面更长。

¹⁶ 免责声明：我是 Convai 的顾问。

¹⁷ 我目前在我的谷歌相册中有超过 40,000 张照片和视频。如果没有人工智能，几乎不可能在我需要的时候找到我想要的照片。

¹⁸ 个人而言，我发现人工智能在解释数据和图表方面也很出色。当遇到信息过多、令人困惑的图表时，我会请 ChatGPT 帮我分析。

¹⁹ 然而，小型初创公司可能必须优先关注产品，而且连一个“观察”的人都负担不起。

²⁰ 在生成式人工智能早期的一个笑话是，AI 初创公司要么是 OpenAI，要么是 Claude 的包装器。

²¹ 在写这本书的过程中，我几乎没能和任何一家人工智能初创公司交谈，而不听到“数据飞轮”这个词。

²² 免责声明：我是一名 Photoroom 的投资者。

²³ 一家财富 500 强公司的人工智能负责人告诉我：他的团队知道如何使用 10 个 GPU，但他们不知道如何使用 1,000 个 GPU。

²⁴ 并且他们提供了令人难以置信的薪酬方案。

²⁵ 如果你觉得“预训练”和“后训练”这两个术语缺乏想象力，你并不是一个人。人工智能研究界在许多方面都很出色，但命名却不是其中之一。

我们已经讨论过“大型语言模型”几乎不是一个科学术语，因为“大型”这个词的模糊性。我真的希望人们能停止发表标题为“X 就是你所需要的一切”的论文。

²⁶ Streamlit、Gradio 和 Plotly Dash 是构建 AI 网络应用的常用工具。

²⁷ 安东·巴查伊告诉我：“AI 工程只是将 AI 模型加入到软件工程中的一种软件工程。”

第 1 章。构建基础模型的 AI 应用程序介绍

人工智能工程的崛起

从语言模型到大型语言模型

语言模型

图 1-1. GPT-4 如何将一个短语进行分词的示例。

注意

图 1-2.自回归语言模型和掩蔽语言模型。

注意

自我监督

注意

从大型语言模型到基础模型

图 1-3.多模态模型可以利用文本和视觉标记的信息生成下一个标记。

注意

图 1-4. 超自然指令基准（Wang et al., 2022）中的任务范围。

从基础模型到人工智能工程

图 1-5。在 2023 年，提到人工智能的标准普尔 500 公司在财报电话会议中的数量达到了历史最高水平。数据来自 FactSet。

图 1-6。根据它们的 GitHub 星标数量，开源 AI 工程工具的增长速度超过了其他任何软件工程工具。

基础模型使用案例

图 1-7。在 GitHub 上 205 个开源代码库中用例的分布。

图 1-8. 公司更愿意部署内部应用程序。

编码

图 1-9。人工智能可以帮助开发者显著提高生产力，特别是在简单任务上，但对于高度复杂的任务，这种效果较小。数据来源于麦肯锡。