2024_06_19_327d22e10e7a00b3c559g

提示报告：提示技术系统调查

Sander Schulhoff Michael Ilie Nishant Balepur Konstantine Kahadze
Amanda Liu Chenglei Si Yinheng Li Aayush Gupta HyoJung Han Sevien Schulhoff
Pranav Sandeep Dulepet Saurav Vidyadhara Dayeon Ki Sweta Agrawal Chau Pham Gerson Kroiz Feileen Li Hudson Tao Ashay Srivastava Hevander Da Costa Saloni Gupta Megan L. Rogers Inna Goncearenco Giuseppe Sarli Igor Galynker
Denis Peskoff Marine Carpuat Jules White Shyamal Anadkat Alexander Hoyle Philip Resnik
马里兰大学 OpenAI 斯坦福大学微软公司范德比尔特大学普林斯顿大学
得克萨斯州立大学伊坎医学院 ASST Brianza
西奈山以色列贝丝医院电信研究所马萨诸塞大学阿默斯特分校sschulho@umd.edu milie@umd.edu resnik@umd.edu

摘要

生成式人工智能（GenAI）系统正越来越多地应用于工业和研究领域的各个环节。开发人员和最终用户通过使用提示或提示工程与这些系统进行交互。虽然 "提示 "是一个广泛存在且研究较多的概念，但由于该领域刚刚起步，因此存在术语冲突，而且对 "提示 "的本体理解也不透彻。本文通过对提示技术进行分类和分析，建立了对提示的结构化理解。我们提出了一个包含 33 个词汇的综合词汇表，一个包含 58 种纯文字提示技术和 40 种其他方式提示技术的分类法。我们还对有关自然语言前缀提示的全部文献进行了荟萃分析。

1 简介 .....4

1.1 什么是提示？.....5

1.2 术语 .....5

1.2.1 即时 ..... 的组成部分5
1.2.2 提示术语

1.3 提示语简史

2 提示的元分析 .....8

2.1 系统性审查程序 .....8
2.1.1 管道

2.2 基于文本的技术 .....8

2.2.1 情境学习（ICL） .....8

2.2.2 零射击 .....11

2.2.3 思想生成 .....12

2.2.4 分解 .....13

2.2.5 组装 .....14

2.2.6 自我批评 .....15

2.3 提示技术的使用 .....15

2.3.1 基准 .....17

2.4 迅速开展工程 .....17

2.5 回答工程 .....17

2.5.1 答案形状 .....18

2.5.2 应答空间 .....18

2.5.3 答案提取器 .....18

3 超越英语文本提示 .....19

3.1 多语种 .....19

3.1.1 思维链 (CoT) .....19

3.1.2 情境学习 .....19

3.1.3 上下文示例选择
.....19

3.1.4 提示模板 Lan-

压力表选择 .....19

3.1.5 机器提示
翻译 .....20

3.2 多种模式 .....21

3.2.1 图像提示 .....21

3.2.2 音频提示 .....22

3.2.3 视频提示 .....22

3.2.4 分类提示 .....22

3.2.5 三维提示 .....22

4 提示的扩展 .....23

4.1 代理人 .....23

4.1.1 工具使用代理 .....23

4.1.2 代码生成代理 .....23

4.1.3 基于观测的代理 .....24

4.1.4 检索增强 Gen-

.....24

4.2 评估 .....25

4.2.1 提示技术 .....25

4.2.2 输出格式 .....26

4.2.3 提示框架 .....26

4.2.4 其他方法 .....26

5 提示问题 .....28

5.1 安全 .....28

5.1.1 黑客提示类型 .....28

5.1.2 迅速黑客攻击的风险 .....28

5.1.3 硬化措施 .....29

5.2 对齐 .....29

5.2.1 即时敏感性 .....30

5.2.2 过度自信与卡利
.....30

5.2.3 偏见、成见和偏见
文化 .....31

5.2.4 含糊不清 .....31

6 基准 .....32

6.1 技术基准 .....32

6.1.1 提示比较
技术 .....32

6.1.2 问题格式 .....32

6.1.3 自我一致性 .....32

6.1.4 评估答复 .....33

6.1.5 结果 .....33

6.2 Prompt 工程案例研究 .....33

6.2.1 问题 .....33

6.2.2 数据集 .....34

6.2.3 进程 .....34

6.2.4 讨论 .....41

7 相关工作 .....42

8 结论 .....43

A 附录 .....59

A. 1 提示的定义 .....59

A. 2 扩展词汇 .....61

A.2.1 提示术语 .....61

A.2.2 工程术语提示 .....61

A.2.3 微调术语 .....61

A.2.4 正交提示类型 .....61

A. 3 数据表 .....63

A.3.1 动机 .....63

A.3.2 构成 .....63

A.3.3 收集过程 .....64

A.3.4 预处理/清洗
标签 .....64

A.3.5 用途 .....64

A.3.6 分配 .....64

A.3.7 维护 .....64

A. 4 关键字 .....65

A. 5 评估表 .....67

A. 6 诱导过程 .....68

A.6.1 勘探 .....68

A.6.2 获取标签 .....68

A.6.3 不同的提示技术
.....68

A. 7 正式定义提示 .....71

A. 8 个情境学习定义
消歧 .....73

A. 9 会费 .....75

1 引言

基于变压器的LLMs 广泛应用于面向消费者、内部和研究环境（Bommasani 等人，2021 年）。通常情况下，这些模型依赖于用户提供输入 "提示"，而模型则根据 "提示 "进行输出。这些提示可能是文字性的--"写一首关于树的诗"--也可能是其他形式：图像、音频、视频或它们的组合。对模型进行提示的能力，尤其是使用自然语言进行提示的能力，使模型易于交互，并能在各种用例中灵活使用。

要使用这些模型，就必须知道如何有效地利用提示来组织、评估和执行其他任务。从经验上看，更好的提示能提高各种任务的结果（Wei 等人，2022 年；Liu 等人，2023 年 b；Schulhoff，2022 年）。围绕使用提示来提高结果的文献已经大量增加，提示技术的数量也在迅速增加。

然而，由于提示是一个新兴领域，人们对提示的使用仍然知之甚少，只有一小部分现有术语和技术为从业人员所熟知。我们对提示技术进行了大规模审查，以创建该领域术语和技术的强大资源。我们预计这将是术语的首次迭代，并将随着时间的推移不断发展。

研究范围我们创建了一个广泛的提示技术目录，开发人员和研究人员可以快速理解并轻松实施这些技术，以便进行快速实验。为此，我们将研究重点限定为离散前缀提示（Shin 等人，2020a）而非掐词提示（Petroni 等人，2019；Cui 等人，2021），因为使用前缀提示的现代LLM 架构（尤其是纯解码器模型）已被广泛使用，并为消费者和研究人员提供了强大的支持。此外，我们将研究重点调整为硬性（离散）提示而非软性（连续）提示，并剔除了使用基于梯度的更新技术（即微调）的论文。最后，我们只研究与任务无关的技术。这些决定保持了

图 1.1：提示领域内的类别相互关联。我们将讨论 7 个核心类别，我们范围内的论文对这些类别进行了很好的描述。

让技术性不强的读者也能读懂作品，并保持可管理的范围。

章节概述我们根据 PRISMA 流程（Page 等人，2021 年）（第 2.1 节）进行了机器辅助系统综述，确定了 58 种不同的基于文本的提示技术，并据此创建了一个具有强大提示术语的分类法（第 1.2 节）。

尽管许多关于提示的文献都侧重于纯英语环境，但我们也讨论了多语言技术（第 3.1 节）。鉴于多模态提示技术的迅速发展，提示可能包括图像等媒体，我们也将讨论范围扩大到多模态技术（第 3.2 节）。许多多语言和多模态提示技术都是纯英文文本提示技术的直接延伸。

随着提示技术越来越复杂，它们也开始结合外部工具，如互联网浏览和计算器。我们使用 "代理 "一词来描述这类提示技术（第 4.1 节）。

重要的是要了解如何评估代理和提示技术的输出，以确保准确性并避免产生幻觉。因此，我们将讨论评估这些输出结果的方法（第二章）。

第 4.2 节）。我们还讨论了设计提示符时的安全性（第 5.1 节）和安全措施（第 5.2 节），以降低对公司和用户造成伤害的风险。

最后，我们在两个案例研究中应用了提示技术（第 6.1 节）。在第一个案例中，我们针对常用基准 MMLU（Hendrycks 等人，2021 年）测试了一系列提示技术。在第二项研究中，我们详细探讨了人工提示工程在现实世界中的一个重要使用案例，即在寻求支持的个人文本中识别疯狂绝望的信号--自杀危机的首要指标（Schuck 等人，2019a）。最后，我们将讨论提示的本质及其最新发展（第8节）。

1.1 什么是提示？

提示是生成式人工智能模型的输入，用于指导其输出（Meskó，2023 年；White 等人，2023 年；Heston 和 Khun，2023 年；Hadi 等人，2023 年；Brown 等人，2020 年）。提示可以由文本、图像、声音或其他媒体组成。提示的例子包括"为一家会计师事务所的营销活动写一封三段式电子邮件"，一张桌子的照片，配以文字 "描述桌子上的所有东西"，或者一段在线会议的录音，配以说明 "总结一下"。

提示模板提示通常是通过提示模板构建的（Shin 等人，2020b）。提示模板是一个包含一个或多个变量的函数，这些变量将被一些媒体（通常是文本）所取代，从而创建一个提示。该提示可视为模板的一个实例。

考虑将提示法应用到推文的二元分类任务中。下面是一个可用于对输入进行分类的初始提示模板。

将推文分为正面和负面：

推文

数据集中的每条推文都将被插入模板的一个单独实例中，由此产生的提示信息将提供给LLM 进行推理。

写一首关于树的诗

就下面的题目写一首诗：{USER_INPUT }

图 1.2：提示和提示模板是不同的概念；插入输入后，提示模板就变成了提示。

1.2 术语

1.2.1 提示的组成部分

提示语中有各种常见的组成部分。我们总结了最常用的组成部分，并讨论了它们如何与提示语相匹配。

指令许多提示以指令或问题的形式发出指令。

这就是提示的核心意图，有时简称为 "意图"。例如，下面是一个包含单一指令的提示示例：

告诉我五本值得一读的好书。

指令也可以是隐式的，就像在这个 onehot 案例中，指令是执行英语到西班牙语的翻译：

夜早晨

示例示例，又称范例或镜头，是指导 GenAI 完成任务的示范。上述提示是 OneShot（即一个示例）提示。

输出格式化 GenAI 通常希望以某些格式输出信息，例如 CSV 或 markdown 格式（Xia 等人，2024 年）。为方便起见，您只需添加如下说明即可：

{注释｝

将其汇总为 CSV。

图 1.3：提示术语表。附录中的术语虽然不够关键，但对提示法领域非常重要。提示技术如图 2.2 所示

样式指令样式指令是一种输出格式，用于从样式上而非结构上修改输出（第 2.2.2 节）。例如

写一段关于骆驼的简洁明了的文字。

角色角色，又称人物角色（Schmidt 等人，2023；Wang 等人，20231），是经常被讨论的一个组成部分，可以改善写作和文本风格（第 2.2.2 节）。例如

假装自己是牧羊人，写一首关于骆驼的打油诗。

附加信息通常有必要在提示中包含附加信息。例如，如果指令是撰写一封电子邮件，您可能需要提供您的姓名和职位等信息，以便 GenAI 能够正确签署电子邮件。附加信息有时也被称为 "上下文"，不过我们不鼓励使用该术语，因为它在提示空间

中已包含了过多的其他含义。

1.2.2 提示术语

提示文献中的术语发展迅速。目前，有许多定义（如提示、提示工程）理解不清，而且相互矛盾（如角色提示与角色提示）。缺乏一致的词汇妨碍了社区清晰描述各种提示技术的能力。我们为提示社区提供了一个强大的术语表（图 1.3）。

不常用的术语则放在附录 A.2 中。为了准确定义提示和提示工程等常用术语，我们整合了许多定义（附录 A.1），得出了具有代表性的定义。

提示提示是向 GenAI 提供提示，然后生成响应的过程。例如，发送一大段文本或上传一张图片的操作就构成了提示。

提示链提示链（活动：提示链）由两个或多个连续使用的提示模板组成。第一个提示模板生成的提示输出被用于第二个模板的参数化，一直持续到所有模板都用完为止（Wu 等人，2022 年）。

数据集推理（即条目

)

图 1.4：提示工程流程包括三个重复步骤：1）对数据集进行推理；2）评估性能；3）修改提示模板。请注意，提取器用于从LLM 输出中提取最终回复（例如，"这句话是肯定的"

"肯定"）。有关提取器的更多信息，请参见第 2.5 节。

提示技术提示技术是描述如何构建提示、提示或多个提示动态排序的蓝图。提示技术可能包含条件或分支逻辑、并行性或跨越多个提示的其他架构考虑因素。

提示工程提示工程是通过修改或改变所使用的提示技巧来反复开发提示的过程（图 1.4）。

提示工程技术提示工程技术是一种对提示进行反复改进的策略。在文献中，这通常是自动化技术（Deng 等人，2022 年），但在消费环境中，用户通常会手动执行提示工程。

示例示例是在提示中向模型展示的任务完成实例（Brown 等人，2020 年）。

1.3 提示语简史

使用自然语言前缀或提示语来诱发语言模型行为和反应的想法起源于 GPT-3 和 ChatGPT 时代之前。GPT-2（Radford等人，2019a）使用了提示语，而Fan等人（2018）似乎首次在生成式人工智能中使用了提示语。不过，在提示概念之前还有一些相关概念，如控制代码（Pfaff, 1979; Poplack, 1980; Keskar et al.

Prompt Engineering（快速工程）一词似乎是最近从 Radford 等人（2021 年）和稍后从 Reynolds 和 McDonell（2021 年）那里出现的。

然而，有多篇论文在没有命名术语的情况下进行了提示工程（Wallace 等人，2019；Shin 等人，2020a），包括 Schick 和 Schütze (2020a,b)；Gao 等人 (2021) 的非自回归语言模型。

最早的一些关于提示的著作对提示的定义与目前的用法略有不同。例如，下面是 Brown 等人（2020 年）的提示语：

将英语译为法语： llama

Brown 等人（2020）认为 "llama "一词是提示语，而 "将英语翻译成法语："则是 "任务描述"。包括本论文在内的更多最新论文则将传递给LLM 的整个字符串视为提示。

2 提示的元分析

2.1 系统性审查过程

为了可靠地为本文收集资料来源数据集，我们按照 PRISMA 流程（Page 等人，2021 年）进行了系统的文献综述（图 2.1）。我们将该数据集放在 HuggingFace 上，并在附录 A.3 中提供了该数据集的数据表（Gebru et al.我们的主要数据来源是 arXiv、Semantic Scholar 和 ACL。我们使用与提示和提示工程狭义相关的 44 个关键词列表查询这些数据库（附录 A.4）。

2.1.1 管道

在本节中，我们将介绍我们的数据搜刮管道，其中包括人工审查和 LLM 辅助审查。

作为建立过滤标准的初始样本，我们根据一组简单的关键词和布尔规则（A.4）从 arXiv 中检索论文。然后，人工标注员从 arXiv 中抽取 1661 篇文章，按照以下标准进行标注：

论文是否提出了新颖的提示技巧？包括
论文是否严格涵盖硬性前言提示？包括
论文是否侧重于通过反向传播梯度进行训练？(排除)
对于非文本模式，是否使用屏蔽框架和/或窗口？

一组 300 篇文章由两位注释者独立审阅，

一致（Krippendorff's

Cohen's

）。接下来，我们使用 GPT-4-1106-preview 开发了一个提示语来对其余文章进行分类。我们根据 100 个地面实况注释对该提示进行了验证，获得了

的精确度和

的召回率（

，

）。综合人类和LLM 的注释，最终产生了 1565 篇论文。

2.2 基于文本的技术

现在，我们将 58 种基于文本的提示技术分成 6 大类，提出了一个全面的分类本体（图 2.2）。虽然

图 2.1：PRISMA 评审流程。我们积累了 4,247 条唯一记录，从中提取了 1,565 条相关记录。

有些技术可能属于多个类别，我们将它们归入最相关的一个类别。

2.2.1 情境学习（ICL）

ICL 指的是基因人工智能通过在提示中提供范例和或相关指令来学习技能和任务的能力，而无需进行重量更新/再训练（Brown 等人，2020 年；Radford 等人，2019 年 b）。这些技能可以从范例（图 2.4）和/或指令（图 2.5）中学习。请注意，"学习 "一词有误导性。ICL 可以是简单的任务说明，这些技能不一定是新的，也可以已经包含在训练数据中（图 2.6）。关于该术语的使用，请参见附录 A. 8。目前，在优化（Bansal等人，2023年）和理解（Si等人，2023年a；Štefánik和Kadlčík，2023年）ICL方面正在开展大量工作。

图 2.4 所示的范例是 "少量提示"（Brown 等人，2020 年），在该范例中，GenAI 只需学习少量示例（范例）即可完成任务。

图 2.2：数据集中所有基于文本的提示技术。

图 2.3：我们着重强调了在制作少量提示时的六个主要设计决策。

请注意，这里的建议并不适用于所有任务；在某些情况下，每项建议都可能会影响性能。

: 四

: 九

图 2.4：ICL 示例提示

从下面的文字中提取所有有 3 个相同字母和至少 3 个其他字母的单词：

文本

图 2.5：ICL 指令提示

Few-Shot Learning（FSL）（Fei-Fei等人，2006年；Wang等人，2019年）经常与Few-Shot Prompting（Brown等人，2020年）混为一谈。需要注意的是，FSL 是一种更广泛的机器学习范式，通过少量实例来调整参数，而 Few-Shot Prompting 则专门针对 GenAI 设置中的提示，不涉及模型参数的更新。

2.2.1.1 少量提示设计决策

为提示语选择示例是一项艰巨的任务，其性能在很大程度上取决于示例的各种因素（Dong 等人，2023 年），而且只有有限数量的示例适合典型的LLM 的上下文窗口。我们强调了六个独立的设计决策，包括对输出质量有关键影响的示例选择和顺序（Zhao 等人，2021a；Lu 等人，2021；Ye 和 Durrett，2023）（图 2.3）。

范例数量增加提示中范例的数量通常可以提高模型的性能，尤其是在大型模型中（Brown 等人，2020 年）。然而，在某些情况下，超过 20 个示例后，效果可能会减弱（Liu 等人，2021 年）。

将 "奶酪 "一词翻译成法语。

图 2.6：来自训练数据提示的 ICL。在这一版本的 ICL 中，模型不是在学习新技能，而是在使用训练集中可能存在的知识。

范例排序范例的顺序会影响模型的行为（Lu 等人，2021 年；Kumar 和 Talukdar，2021 年；Liu 等人，2021 年；Rubin 等人，2022 年）。在某些任务中，示例顺序会导致准确率从次

到

et al., 2021）。

示例标签分布与传统的监督式机器学习一样，提示中示例标签的分布也会影响行为。例如，如果包含了一个类别的 10 个示例和另一个类别的 2 个示例，这可能会导致模型偏向于第一个类别。

示例标签质量尽管多个示例具有普遍优势，但严格有效的示例是否必要还不清楚。一些研究（Min 等人，2022 年）表明，标签的准确性并不重要--为模型提供标签不正确的示例可能不会对性能产生负面影响。然而，在某些设置下，会对性能产生重大影响（Yoo 等人，2022 年）。较大的模型通常更善于处理不正确或不相关的标签（Wei 等，2023c）。

讨论这一因素非常重要，因为如果您要从可能包含误差的大型数据集中自动构建提示，可能有必要研究标签质量对结果的影响。

示例格式示例的格式也会影响性能。最常见的格式之一是 "Q: {输入}, A: {标签}"，但不同任务的最佳格式可能会有所不同；也许值得尝试多种格式，看看哪种效果最好。

有证据表明，在训练数据中经常出现的格式会带来更好的性能（Jiang 等人，2020 年）。

范例相似性选择与测试样本相似的范例通常有利于提高成绩（Liu 等人，2021 年；Min 等人，2022 年）。不过，在某些情况下，选择更多样化的示例也能提高成绩

et al., 2022; Min et al., 2022）。

2.2.1.2 少量提示技术

考虑到所有这些因素，要有效地实施 "少量提示 "可能会非常困难。现在，我们将研究在有监督环境下的 "快照提示 "技术。集合方法也能为 "少数提示 "带来好处，但我们将单独讨论（第 2.2.5 节）。

假设我们有一个训练数据集

，其中包含多个输入

和输出

，可用于对 GenAI 进行少量提示（而不是执行基于梯度的更新）。假设该提示可以在测试时根据

动态生成。以下是我们将在本节中使用的提示模板，采用 "输入：输出 "格式（图 2.4）：

{范例 }

图 2.7：少量提示模板

K-Nearest Neighbor（KNN）（Liu 等人，2021 年）是一系列算法中的一种，它选择与

相似的示例来提高性能。在生成提示时使用 KNN 虽然有效，但可能会耗费大量时间和资源。

Vote-K（Su 等人，2022 年）是另一种选择与测试样本相似示例的方法。在一个阶段，模型提出有用的未标注候选示例，供标注者标注。在第二阶段，标注库用于 "少量提示"（Few-Shot Prompting）。Vote-K 还能确保新添加的示例与现有示例有足够大的差异，以增加多样性和代表性。

自生成情境学习（SG-ICL）（Kim 等人，2022 年）利用 GenAI 自动生成示例。虽然在没有训练数据的情况下，生成的样本比zeroshot场景更好，但不如实际数据有效。

提示挖掘（Jiang 等人，2020 年）是通过大型语料库分析发现提示中最佳 "中间词"（实际上是提示模板）的过程。例如，与其使用常见的 "Q: A: "格式来进行少量提示，不如使用在语料库中出现频率更高的类似格式。在语料库中出现频率更高的格式可能会提高提示性能。

更复杂的技术，如 LENS（Li 和 Qiu，2023a）、UDR（Li 等人，2023f）和 Active Example Selection（Zhang 等人，2022a）分别利用了迭代过滤、嵌入和检索以及强化学习。

2.2.2 零点射击

与 "少量提示"（Few-Shot Prompting）不同，"零镜头提示"（Zero-Shot Prompting）使用的是零范例。我们将在后面（第 2.2.3 节）讨论一些众所周知的独立零镜头技术，以及与另一个概念（如思维链）相结合的零镜头技术。

角色提示（Wang 等人，2023j；Zheng 等人，2023d），也称为角色提示（Schmidt 等人，2023；Wang 等人，20231），在提示中为 GenAI 指定一个特定的角色。例如，用户可能会提示它扮演 "麦当娜 "或 "旅行作家"。这可以为开放式任务创造更理想的输出结果（Reynolds 和 McDonell，2021 年），并在某些情况下提高基准的准确性（Zheng 等人，2023d）。

风格提示（Lu 等人，2023a）涉及在提示中指定所需的风格、语气或体裁，以塑造 GenAI 的输出。使用角色提示也能达到类似的效果。

情感提示（Li 等人，2023a）将与人类心理相关的短语（如 "这对我的职业生涯很重要"）纳入提示，这可能会提高LLM 在基准和开放式文本生成方面的性能。

系统 2 注意（S2A）（Weston 和 Sukhbaatar，2023 年）首先要求LLM 重写提示，并删除任何与问题无关的信息。然后，它将新的提示信息传入LLM ，以获取最终回复。

SimToM（Wilf 等人，2023 年）处理的是涉及多人或多物的复杂问题。给定问题后，它试图确定一个人所知道的一系列事实，然后仅根据这些事实回答问题。这是一个双提示过程，有助于消除提示中无关信息的影响。

重述和回答（RaR）（Deng 等人，2023 年）指示LLM 在生成最终答案之前对问题进行重述和扩展。例如，它可以在问题中添加以下短语："重新措辞并扩展问题，然后回答"。这可以一次性完成，也可以将新问题单独发送给LLM 。RaR 在多个基准测试中都取得了改进。

重读（RE2）（Xu 等人，2023 年）除了重复问题外，还在提示语中添加了 "再读一遍问题："的短语。虽然这只是一个简单的技巧，但它却能提高推理基准，尤其是复杂问题的推理。

Self-Ask（Press 等人，2022 年）提示LLMs 首先决定是否需要就给定的提示提出后续问题。如果需要，LLM 会生成这些问题，然后回答这些问题，最后回答原始问题。

2.2.3 思想的产生

思维生成包括一系列技术，可促使LLM 在解决问题时阐明自己的推理（Zhang 等人，2023c）。

思维链（CoT）提示（Wei 等人，2022 年）利用少量提示来鼓励LLM 在给出最终答案之前表达其思维过程。

这种技术有时也被称为思维链（Chain-of-Thoughts）（Tutunov 等人，2023；Besta 等人，2024；Chen 等人，2023d）。事实证明，它能显著提高LLM 在数学和推理任务中的表现。在 Wei 等人（2022 年）的研究中，提示包括一个示例，其中有问题、推理路径和正确答案（图 2.8）。

问：杰克有两个篮子，每个篮子里有三个球。杰克一共有多少个球？

答：一个篮子里有 3 个球，所以两个篮子里有

个球。

图 2.8：一次性思维链提示。

2.2.3.1 零镜头-CoT

最直接的 CoT 版本不包含任何示例。它包括在提示语中添加一个诱导思考的短语，如 "让我们一步一步地思考"（小岛等人，2022 年）。(小岛等人，2022 年）的提示。其他建议的思维诱导短语包括："让我们一步一步地解决这个问题，以确保我们有正确的答案"（Zhou 等人，2022b）和 "首先，让我们从逻辑上思考这个问题"（Kojima 等人，2022）。Yang等人（2023a）正在寻找最佳思维诱导器。零镜头-CoT 方法不需要范例，而且通常与任务无关，因此很有吸引力。

Step-Back Prompting（Zheng 等人，2023c）是对 CoT 的一种修改，即在深入推理之前，首先向LLM 提出一个关于相关概念或事实的通用、高级问题。在 PaLM

和 GPT-4 的多个推理基准上，这种方法都显著提高了性能。

类比提示（Yasunaga 等人，2023 年）与 SG-ICL 相似，可自动生成包含 CoT 的示例。在数学推理和代码生成任务中，它的表现都有所改进。

Thread-of-Thought (ThoT) Prompting（Zhou 等人，2023 年）是一种用于 CoT 推理的改进型思维诱导器。它不再使用 "让我们一步一步地思考"，而是使用 "让我一步一步地看完这个上下文，边看边总结和分析"。这种思维诱导器在问题解答和检索设置中效果很好，尤其是在处理大型复杂语境时。

表格式思维链（Tab-CoT）（Jin 和

，2023 年）由一个零射 CoT 提示组成，该提示使LLM 输出推理为标记符

表。这种表格设计使LLM 能够改进结构，从而改进其输出的推理。

2.2.3.2 少量 COT

这套技术为LLM 提供了多个范例，其中包括思维链。这可以大大提高性能。这种技术有时被称为 ManualCoT（Zhang 等人，2022b）或 Golden CoT（Del 和 Fishel，2023）。

Contrastive CoT Prompting（Chia 等人，2023 年）在 CoT 提示中增加了错误和正确解释的示例，以向LLM 展示如何不进行推理。这种方法在算术推理和事实问答等方面都有明显改善。

不确定性路由 CoT 提示（Google，2023 年）会对多个 CoT 推理路径进行采样，如果大多数路径都高于某个阈值（根据验证数据计算得出），则会选择其中之一。如果不是，则贪婪地采样并选择该响应。这种方法在 GPT4 和 Gemini Ultra 模型的 MMLU 基准上都有改进。

基于复杂性的提示（Fu 等人，2023b）涉及对 CoT 的两大修改。首先，它根据问题长度或所需推理步骤等因素，选择复杂示例进行注释并纳入提示。其次，在推理过程中，它会对多个推理链（答案）进行采样，并在超过一定长度阈值的推理链中使用多数票，前提是较长的推理说明答案质量较高。这种技术在三个数学推理数据集上都有改进。

主动提示（Diao 等人，2023 年）从一些训练问题/示例开始，要求LLM 解决这些问题，然后计算不确定性（本例中为分歧），并要求人类注释者重写不确定性最高的示例。

思维记忆提示法（Li 和 Qiu，2023b）利用未标记的训练示例，在测试时建立 Few-Shot CoT 提示。在测试前，它利用 CoT 对未标记的训练示例进行推理。测试时，它会检索与测试样本相似的实例。这项技术在算术、常识和事实推理等基准测试中取得了显著进步。

自动思维链（Auto-CoT）提示--

ing（Zhang 等人，2022b）使用 Wei 等人（2022 年）的 Zero-Shot 提示自动生成思维链。然后，再利用这些思维链为测试样本构建一个 "零点提示"（Few-Shot CoT prompt）。

2.2.4 分解

大量研究集中于将复杂问题分解为更简单的子问题。这对人类和 GenAI 都是一种有效的问题解决策略（Patel 等人，2022 年）。有些分解技术类似于思维诱导技术，例如 CoT，它通常会自然地将问题分解为更简单的组成部分。然而，明确分解问题可以进一步提高LLMs 的问题解决能力。

从少到多提示法（Zhou 等人，2022a）首先提示LLM ，将给定问题分解成若干子问题，但不求解这些子问题。然后，它依次求解这些子问题，每次都在提示后附加模型响应，直到得出最终结果。这种方法在涉及符号操作、组合概括和数学推理的任务中显示出明显的改进。

分解提示（DECOMP）（Khot 等人，2022 年）Few-Shot 会提示LLM ，告诉它如何使用某些功能。这些函数可能包括字符串分割或互联网搜索等功能；这些功能通常作为单独的LLM 调用来实现。有鉴于此，LLM 将其原始问题分解为子问题，并将其发送给不同的函数。在某些任务上，它比 "从最少到最多 "提示法的性能有所提高。

计划-解决 "提示（Wang 等人，2023f）包括一个改进的 "零镜头 "CoT 提示："让我们先了解问题，并制定一个解决问题的计划。然后，让我们执行计划，逐步解决问题"。在多个推理数据集上，这种方法生成的推理过程比标准的 Zero-Shot-CoT 更稳健。

思维树（ToT）（Yao 等人，2023b），又称思维树（Long，2023），通过从初始问题开始，然后以思维的形式生成多个可能的步骤（如 CoT），从而创建一个树状搜索问题。它能评估每一步在解决该问题上所取得的进展。

问题（通过提示），并决定继续采取哪些步骤，然后不断产生更多想法。ToT 对于需要搜索和规划的任务尤其有效。

思维递归（Lee 和 Kim，2023 年）是

similar to regular CoT. However, every time it encounters a complicated problem in the middle of its reasoning chain, it sends this problem into another prompt/LLM call. After this is completed, the answer is inserted into the original prompt. In this way, it can recursively solve complex problems, including ones which might otherwise run over that maximum context length. This method has shown improvements on arithmetic and algorithmic tasks. Though implemented using fine-tuning to output a special token that sends sub-problem into another prompt, it could also be done only through prompting.

思维程序（Chen 等人，2023d）使用类似于 Codex 的LLMs 来生成作为推理步骤的编程代码。代码解释器执行这些步骤以获得最终答案。它在数学和编程相关任务中表现出色，但在语义推理任务中效果较差。

Faithful Chain-of-Thought（Lyu等人，2023年）生成的CoT与Program-of-Thoughts一样，既有自然语言推理，也有符号语言（如Python）推理。不过，它还能根据任务的不同使用不同类型的符号语言。

思维骨架（Ning 等人，2023 年）侧重于通过并行化加快解答速度。给定一个问题后，它会提示LLM 创建一个答案骨架，从某种意义上说，就是要解决的子问题。然后，它以并行方式将这些问题发送到LLM ，并将所有输出连接起来，得到最终答案。

2.2.5 组合

在 GenAI 中，集合是指使用多个提示来解决同一问题，然后将这些回答汇总为最终输出的过程。在许多情况下，使用多数票来选择最常见的回答，从而生成最终输出。集合技术可减少LLM 输出的差异，通常还能提高准确性，但代价是需要增加模型调用次数才能得出最终答案。

演示汇编（DENSE）（Khalifa 等人，2023 年）创建了多个少量提示，每个提示都包含训练集中一个不同的示例子集。然后，它将它们的输出汇总，生成最终的响应。

混合推理专家（MoRE）（Si 等人，2023d）通过针对不同推理类型使用不同的专门提示（如针对事实推理的检索增强提示、针对多跳和数学推理的思维链推理以及针对常识推理的生成知识提示）来创建一组多样化的推理专家。所有专家的最佳答案将根据协议得分选出。

LLM最大互信息法（Sorensen et al.

自我一致性（Wang 等人，2022 年）基于多种不同推理路径可得出相同答案的直觉。这种方法首先会多次提示LLM 执行 CoT，关键是温度不能为零，以引出不同的推理路径。然后，它通过对所有生成的答案进行多数表决来选择最终答案。自我一致性在算术、常识和符号推理任务上都有所改进。

通用自一致性（Chen 等人，2023e）与自一致性类似，但它不是通过程序计算出现频率来选择多数人的回答，而是将所有输出插入一个选择多数人回答的提示模板中。这对于自由格式文本生成和不同提示输出的相同答案可能略有不同的情况很有帮助。

多重 CoT 上的元推理（Yoran 等人，2023 年）与通用自洽类似；它首先为给定问题生成多个推理链（但不一定是最终答案）。接下来，它将所有这些推理链插入一个提示模板，然后从中生成最终答案。

DiVeRSe（李等人，2023i）为给定问题创建多个提示，然后对每个提示进行自洽，生成多个理由。

推理路径。他们根据推理路径中的每一步进行评分，然后选择最终答案。

基于一致性的自适应提示

(COSP) (Wan et al., 2023a) constructs Few-Shot CoT prompts by running Zero-Shot CoT with Self-Consistency on a set of examples then selecting a high agreement subset of the outputs to be included in the final prompt as exemplars. It again performs Self-Consistency with this final prompt.

通用自适应提示（USP）（Wan 等人，2023b）建立在 COSP 成功的基础上，旨在使其适用于所有任务。USP 利用无标记数据生成示例，并利用更复杂的评分函数来选择示例。此外，USP 不使用自一致性。

提示语转述（Jiang 等人，2020 年）通过改变部分措辞对原始提示语进行转换，同时仍保持其整体含义。这实际上是一种数据扩增技术，可用于生成集合提示。

2.2.6 自我批评

在创建 GenAI 系统时，让LLMs 批评自己的输出结果可能会很有用（Huang 等人，2022 年）。这可以是简单的判断（例如，这个输出是否正确），也可以是提示LLM 提供反馈，然后用于改进答案。目前已开发出许多产生和整合自我批评的方法。

自我校准（Kadavath 等人，2022 年）首先会提示LLM 回答一个问题。然后，它会生成一个新的提示，其中包括问题、LLM 的答案以及询问答案是否正确的附加指令。在决定接受或修改原始答案时，这对衡量应用LLMs 的信心水平非常有用。

Self-Refine（Madaan 等人，2023 年）是一个迭代框架，当LLM 给出一个初始答案时，它会提示同一个LLM 就答案提供反馈，然后提示LLM 根据反馈改进答案。这个迭代过程一直持续到满足停止条件为止（如达到最大步数）。Self-Refine 在一系列推理、编码和生成任务中都取得了进步。

逆转思维链（RCoT）（Xue 等人，2023 年）首先提示LLMs 根据生成的答案重建问题。然后，它生成原始问题和重构问题之间的细粒度比较，以此来检查任何不一致之处。然后，这些不一致之处会转化为反馈信息，供LLM 修改生成的答案。

自我验证（Weng 等人，2022 年）通过思维链（CoT）生成多个候选解决方案。然后，它通过屏蔽原始问题的某些部分，让LLM 根据问题的其余部分和生成的解决方案来预测这些部分，从而对每个解决方案进行评分。这种方法在八个推理数据集上都有所改进。

LLM 验证链（COVE）（Dhuliawala et al.然后创建一个相关问题列表，帮助验证答案的正确性。每个问题都由LLM 回答，然后将所有信息提供给LLM ，以生成最终修改后的答案。这种方法在各种问题解答和文本生成任务中都有所改进。

累积推理（Zhang 等人，2023b）

首先，它会生成回答问题的几个潜在步骤。然后，它让LLM 对这些步骤进行评估，决定接受或拒绝这些步骤。最后，它会检查是否得出最终答案。如果是，则终止该过程，否则重复该过程。这种方法在逻辑推理任务和数学问题上都有改进。

2.3 提示技术的使用

正如我们刚才所看到的，有许多基于文本的提示技术。然而，其中只有一小部分常用于研究和工业领域。我们通过测量数据集中其他论文的引用次数来衡量技术的使用情况。我们这样做的前提是，有关提示技术的论文更有可能实际使用或评估所引用的技术。我们将数据集中被引用次数最多的 25 篇论文绘制成图，发现其中大多数论文都提出了新的提示技术（图 2.11）。很少被引用的提示技术和思维链提示技术的引用率分别是

图 2.9：GenAI 模型的引用次数

图 2.10：数据集的引用次数

图 2.11：提示技术的引用次数数据集中排名前 25 位的论文，以其被数据集中其他论文引用的频率来衡量。这里的大多数论文都是提示技术*，其余论文则包含提示建议。

这一点不足为奇，而且有助于为了解其他技术的普遍性建立一个基线。

2.3.1 基准

在提示研究中，当研究人员提出一项新技术时，他们通常会在多个模型和数据集中对其进行基准测试。这对于证明该技术的实用性和研究它如何在不同模型间转换非常重要。

为了让提出新技术的研究人员更容易知道如何对其进行基准测试，我们对哪些模型（图 2.9）和哪些基准数据集（图 2.10）正在被使用进行了定量研究。同样，我们通过数据集中论文引用基准数据集和模型的次数来衡量使用情况。

为了找到正在使用的数据集和模型，我们提示 GPT-4-1106-preview 从数据集中的论文正文中提取任何提及的数据集或模型。之后，我们手动过滤掉了不是模型或数据集的结果。引用次数是通过在 Semantic Scholar 上搜索最终列表中的条目获得的。

2.4 快速工程

除了研究提示技术，我们还回顾了用于自动优化提示的提示工程技术。我们讨论了一些使用梯度更新的技术，因为提示工程技术的集合比提示技术的集合要小得多。

元提示是提示LLM 生成或改进提示或提示模板的过程（Reynolds 和 McDonell，2021；Zhou 等人，2022b；Ye 等人，2023）。

自动提示（Shin 等人，2020b）使用冻结的LLM 以及包含一些 "触发令牌 "的提示模板，这些令牌的值在训练时通过反向推理进行更新。这是一种软提示。

自动提示工程师（APE）（Zhou 等人，2022b）使用一组示例来生成零点教学提示。它会生成多个可能的提示，对它们进行评分，然后创建最佳提示的变体（例如，通过使用提示解析）。这一过程反复进行，直到达到某些要求为止。

无梯度教学提示搜索（GrIPS）（Prasad et al.

使用文字渐变优化提示（专业版

(Pryzant 等人，2023 年）是一种独特的提示工程方法，它通过多步骤流程改进提示模板。首先，它通过模板传递一批输入，然后将输出、地面实况和提示信息传递到另一个提示信息中，对原始提示信息进行批判。它从这些批评中生成新的提示，然后使用强盗算法（Gabillon 等人，2011 年）来选择一个。与 APE 和 GRIPS 等方法相比，ProTeGi 有所改进。

RLPrompt （Deng 等人，2022 年）使用一个添加了解冻模块的冻结LLM 。它使用LLM 生成提示模板，在数据集上对模板进行评分，并使用软 Q 学习（Guo 等人，2022 年）更新解冻模块。有趣的是，该方法经常选择语法混乱的文本作为最佳提示模板。

基于对话的政策梯度离散提示优化（DP2O）（Li 等人，2023b）可能是最复杂的提示工程技术，它涉及强化学习、自定义提示评分函数和对话LLM ，以便构建提示。

2.5 答案工程

答案工程是从LLM 输出中提取精确答案的算法开发或选择的迭代过程。为了理解答案工程的必要性，请考虑一项二元分类任务，其中的标签是 "仇恨言论 "和 "非仇恨言论"。提示模板可能是这样的

这是 "仇恨言论 "还是 "非仇恨言论"？

当仇恨言论样本通过模板时，可能会输出 "这是仇恨言论"、"仇恨言论"，甚至 "仇恨言论，因为它使用了针对某个种族群体的负面语言"。这种不同的回复格式很难进行一致的解析；改进的提示可以有所帮助，但只能在一定程度上起到作用。

答案工程有三项设计决策，即答案空间的选择、答案的选择和答案的选择。

图 2.12：标注任务的LLM 输出注释，显示了答案工程的三个设计决定：答案形状、空间和提取器的选择。由于这是来自分类任务的输出，答案形状可以限制为单个标记，答案空间可以限制为两个标记（"正 "或 "负"）中的一个，但在本图中没有限制。

形状和答案提取器（图 2.12）。Liu 等人（2023b）将前两者定义为答案工程的必要组成部分，而我们则将第三者附于其后。我们认为答案工程有别于提示工程，但两者关系极为密切；这两个过程通常是同步进行的。

2.5.1 答案形状

答案的形状是其物理格式。例如，它可以是一个标记、一串标记，甚至是图像或视频。

对于二进制分类等任务，有时可以将LLM 的输出形状限制为单个标记。

2.5.2 应答空间

答案的空间是其结构可能包含的值域。这可能是所有标记的空间，或者在二进制标注任务中，可能只是两个可能的标记。

2.5.3 答案提取器

在不可能完全控制答案空间（例如面向消费者的LLMs ）或预期答案可能位于模型输出的某处时，可以定义一个规则来提取最终答案。该规则通常是一个简单的函数（如正则表达式），但也可以使用单独的LLM 来提取答案。

动词化器常用于标记任务中，动词化器映射标记、跨度或其他类型的输出

与标签对应，反之亦然（注入式）（Schick 和 Schütze，2021 年）。例如，如果我们想让一个模型预测一条 Tweet 是正面还是负面的，我们可以提示它输出 "+"或"-"，而动词化器会将这些标记序列映射到相应的标签上。动词化器的选择是答案工程的一个组成部分。

Regex 如前所述，Regex 通常用于提取答案。它们通常用于搜索标签的第一个实例。不过，根据输出格式和是否生成 CoT，搜索最后一个实例可能会更好。

单独的LLM 有时输出结果非常复杂，以至于 regex 无法始终如一地工作。在这种情况下，让一个单独的LLM 评估输出并提取答案可能会很有用。

3 超越英语文本提示

目前，用英文文本提示 GenAIs 是最主要的交互方式。使用其他语言或通过不同模式进行提示往往需要特殊的技术，才能达到相当的效果。在这种情况下，我们将讨论多语言和多模态提示领域。

3.1 多语种

最先进的 GenAI 通常主要使用英语数据集进行训练，导致英语以外的语言，尤其是低资源语言的输出质量存在明显差异（Bang 等人，2023 年；Jiao 等人，2023 年；Hendy 等人，2023 年；Shi 等人，2022 年）。因此，出现了各种多语言提示技术，试图提高模型在非英语环境中的性能。

先翻译后提示（Shi 等人，2022 年）也许是最简单的策略，它首先将非英语输入示例翻译成英语。通过将输入翻译成英语，模型可以利用其英语优势更好地理解内容。翻译工具各不相同；Shi 等人（2022 年）使用外部 MT 系统，Etxaniz 等人（2023 年）提示多语言 LM，Awasthi 等人（2023 年）提示LLMs 翻译非英语输入。

3.1.1 思维链（CoT）

CoT 提示（Wei 等人，2023a）已通过多种方式扩展到多语言环境。

XLT（跨语言思维）提示

(Huang et al., 2023a) utilizes a prompt template composed of six separate instructions, including role assignment, cross-lingual thinking, and CoT.

跨语言自洽提示 (CLSP)

(Qin et al., 2023a) introduces an ensemble technique that constructs reasoning paths in different languages to answer the same question.

3.1.2 情境学习

ICL 还以多种方式扩展到多语言环境。

X-InSTA Prompting（Tanwar 等人，2023 年）探索了三种不同的方法，用于在分类任务中将非上下文示例与输入句子对齐：使用与输入句子语义相似的示例（语义对齐）、与输入句子具有相同标签的示例（基于任务的对齐），以及将语义对齐和基于任务的对齐相结合。

In-CLT（跨语言迁移）提示（Kim 等人，2023 年）利用源语言和目标语言创建语境中的示例，有别于使用源语言示例的传统方法。这种策略有助于激发多语言LLMs 的跨语言认知能力，从而提高跨语言任务的成绩。

3.1.3 上下文示例选择

上下文示例的选择在很大程度上影响着LLMs 的多语言性能（Garcia 等人，2023 年；Agrawal 等人，2023 年）。寻找与源文本语义相似的上下文示例非常重要（Winata 等人，2023；Moslem 等人，2023；Sia 和 Duh，2023）。然而，使用语义不同（奇特）的示例也被证明可以提高成绩（Kim 和 Komachi，2023 年）。这种对比在纯英语环境中同样存在。此外，在处理模棱两可的句子时，选择多义词或罕见词义的示例可能会提高成绩（Iyer et al.）

PARC（Prompts Augmented by Retrieval Crosslingually）（Nie 等人，2023 年）介绍了一种从高资源语言中检索相关范例的框架。该框架专为提高跨语言迁移性能而设计，尤其适用于低资源目标语言。Li 等人（2023g）将这项工作扩展到孟加拉语。

3.1.4 提示模板语言选择

在多语言提示中，提示模板语言的选择会明显影响模型的性能。

英语提示模板用英语构建提示模板通常更有效

图 3.1：所有多语言提示技术

在多语言任务中，英语比任务语言更有效。这可能是由于LLM 预训练期间英语数据占主导地位（Lin 等人，2022 年；Ahuja 等人，2023 年）。Lin 等人（2022 年）认为，这可能是由于预训练数据和词汇的高度重叠造成的。同样，Ahuja 等人（2023 年）强调了创建任务语言模板时的翻译错误如何以不正确的语法和语义形式传播，从而对任务性能产生不利影响。此外，Fu 等人（2022 年）比较了语言内（任务语言）提示和跨语言（混合语言）提示，发现跨语言方法更有效，这可能是因为它在提示中使用了更多英语，从而促进了从模型中检索知识。

任务语言提示模板相比之下，许多多语言提示基准，如 BUFFET（Asai 等人，2023 年）或 LongBench（Bai 等人，2023 年a），则针对特定语言使用情况使用任务语言提示。Muennighoff 等人（2023 年）专门研究了构建母语提示时的不同翻译方法。他们证明，人工翻译的提示语优于机器翻译的提示语。在不同的任务和模型中，母语或非母语模板的性能会有所不同（Li 等人，2023h）。因此，无论哪种选择都不一定是最佳方法（Nambi 等人，2023 年）。

3.1.5 提示机器翻译

在利用 GenAI 促进准确而细致的翻译方面有大量研究。虽然这是提示的一个具体应用，但其中许多技术对于多语言提示具有更广泛的重要性。

多方面提示和选择（MAPS）（He 等人，2023b）模仿人类翻译过程，其中包括多个准备步骤，以确保高质量的输出。该框架从源句的知识挖掘（提取关键词和主题并生成翻译范例）开始。它整合这些知识，生成多种可能的翻译，然后选择最佳翻译。

字典链（CoD）（Lu 等人，2023b）首先从源短语中提取单词，然后通过字典检索（如英语："apple"，西班牙语："manzana"），自动列出这些单词在多种语言中的含义。然后，他们将这些词典短语预置到提示中，要求 GenAI 在翻译过程中使用这些短语。

图 3.2：所有多模式提示技术。

分解提示 MT（DecoMT）（Puduppully et al.然后，它使用这些译文和各语块之间的上下文信息生成最终译文。

3.1.5.1 圈内人

交互链提示（ICP）（Pilault 等人，2023 年）通过首先要求 GenAI 就待翻译短语中的任何歧义生成子问题，来处理翻译中的潜在歧义。人类随后回答这些问题，系统将这些信息纳入其中，生成最终翻译。

迭代提示（Yang 等人，2023d）在翻译过程中也有人类参与。首先，他们提示LLMs 创建翻译草稿。通过整合从自动检索系统或直接人工反馈中获得的监督信号，进一步完善最初版本。

3.2 多种模式

随着 GenAI 模型的发展超越了基于文本的领域，新的提示技术应运而生。这些多模态提示技术往往不是基于文本的提示技术的简单应用，而是通过不同模态实现的全新想法。现在，我们扩展了基于文本的分类法，将基于文本的提示技术的多模态类似技术和全新的多模态技术混合在一起。

3.2.1 图像提示

图像模式包括照片、图画甚至文本截图等数据（Gong 等人，2023 年）。图像提示可指包含图像或用于生成图像的提示。常见的任务包括图像生成（Ding 等人，2021；Hinz 等人，2022）；

Tao等人，2022；Li等人，2019a,b；Rombach等人，2022）、标题生成（Li等人，2020）、图像分类（Khalil等人，2023）和图像编辑（Crowson等人，2022；Kwon和Ye，2022；Bar-Tal等人，2022；Hertz等人，2022）。现在，我们将介绍用于此类应用的各种图像提示技术。

提示修改器是简单地在提示中附加文字，以改变最终图像（Oppenlaender, 2023）。通常会使用媒介（如 "在画布上"）或照明（如 "光线充足的场景"）等成分。

负向提示 "允许用户对提示中的某些术语进行数字加权，从而使模型更多或更少地考虑这些术语。例如，通过对 "坏手 "和 "多余的数字 "进行负加权，模型就更有可能生成解剖学上准确的手（Schulhoff，2022 年）。

3.2.1.1 多模态情境学习

基于文本的综合学习法的成功促使人们对多模态综合学习法进行研究（Wang 等人，2023k；Dong 等人，2023）。

成对图像提示法向模型展示两幅图像：一幅是转换前的图像，一幅是转换后的图像。然后，向模型展示一幅新图像，模型将对该图像进行所演示的转换。这既可以使用文字说明（Wang 等人，2023k），也可以不使用文字说明（Liu 等人，2023e）。

图像即文本提示（Hakimov 和 Schlangen，2023 年）可生成图像的文本描述。这样就可以轻松地将图像（或多幅图像）纳入基于文本的提示中。

3.2.1.2 多模式思维链

CoT 已通过各种方式扩展到图像领域（Zhang 等人，2023d；Huang 等人，2023d；Thomas 等人，2023d）、

2023c；Zheng 等人，2023b；Yao 等人，2023c）。一个简单的例子是，一个提示包含一个数学问题的图片，并附有文字说明 "一步一步解决这个问题"。

Duty Distinct Chain-of-Thought（DDCoT）（Zheng 等人，2023b）将 "Least-to-Most prompting"（Zhou 等人，2022a）扩展到多模态环境中，创建子问题，然后解决这些问题并将答案合并为最终答案。

多模态思维图（Yao 等人，2023c）将 Zhang 等人（2023d）的思维图扩展到了多模态环境。GoT-Input 也采用先推理再回答的两步流程。在推理过程中，输入提示被用于构建思维图，然后与原始提示一起用于生成回答问题的理由。当输入问题的同时输入图片时，会使用图片标题模型生成图片的文字说明，然后将其附加到思维图构建之前的提示中，以提供视觉背景。

图像链（Chain-of-Images，CoI）（Meng 等人，2023 年）是 "思维链"（Chain-of-Thought）提示的多模态扩展，可生成图像作为其思维过程的一部分。他们使用 "让我们逐图思考 "的提示来生成 SVG，然后模型可以使用 SVG 进行视觉推理。

3.2.2 音频提示

提示功能也已扩展到音频模式。音频 ICL 的实验结果好坏参半，一些开源音频模型无法执行 ICL（Hsu 等人，2023 年）。然而，其他结果确实显示了音频模型的 ICL 能力（Wang 等人，2023g；Peng 等人，2023；Chang 等人，2023）。音频提示目前还处于早期阶段，但我们期待在未来看到各种提示技术的提出。

3.2.3 视频提示

提示功能还被扩展到视频模式，用于文本到视频的生成（Brooks 等人，2024 年；Lv 等人，2023 年；Liang 等人，2023 年；Girdhar 等人，2023 年）、视频编辑（Zuo 等人，2023 年；Wu 等人，2023a 年；Cheng 等人，2023 年）和视频到文本的生成（Yousaf 等人，2023 年；Mi 等人，2023 年；Ko 等人，2023a 年）。

3.2.3.1 视频生成技术

在提示模型生成视频时，可以使用各种方式的提示作为输入，而且通常会采用几种与提示相关的技术来增强视频生成。与图像相关的技术，如提示修改器，通常可用于视频生成（Runway, 2023）。

3.2.4 分段提示

提示也可用于分割（如语义分割）（Tang 等人，2023；Liu 等人，2023c）。

3.2.5 3D 提示

提示也可用于三维模式，例如三维物体合成（Feng 等人，2023 年；Li 等人，2023d,c；Lin 等人，2023 年；Chen 等人，2023f；Lorraine 等人，2023 年；Poole 等人，2022 年；Jain 等人，2022 年）、三维表面纹理（Liu 等人，2023g；Yang 等人，2023b；Le 等人，2023 年；Pajouheshgar 等人，2023 年）和四维场景生成（三维场景动画）（Singer 等人，2023 年；Zhao 等人，2023 年）、2023b；Le 等人，2023；Pajouheshgar 等人，2023）和 4D 场景生成（三维场景动画）（Singer 等人，2023；Zhao 等人，2023c），其中输入提示方式包括文本、图像、用户注释（边界框、点、线）和

对象。

4 提示的扩展

迄今为止，我们所讨论的技术可能极其复杂，包含许多步骤和迭代。不过，我们可以通过添加外部工具（代理）和复杂的评估算法来判断LLM 输出的有效性，从而进一步改进提示功能。

4.1 代理人

随着LLMs 的能力迅速提高（Zhang 等人，2023c），公司（Adept，2023）和研究人员（Karpas 等人，2022）都在探索如何让它们利用外部系统。这是因为LLMs 在数学计算、推理和事实性等方面存在缺陷。这推动了提示技术的重大创新；这些系统通常由提示和提示链驱动，而提示和提示链经过大量设计，可实现类似代理的行为。

代理的定义在 GenAI 的语境中，我们将代理定义为 GenAI 系统，它通过与 GenAI 本身之外的系统互动来实现用户的目标。

这种 GenAI 通常是LLM 。举个简单的例子，考虑一个LLM ，它的任务是解决以下数学问题：

如果安妮有 4939 颗葡萄，正好给了艾米

颗，她还剩多少颗？

如果提示正确，LLM 可以输出字符串 CALC(4,939*.39)。提取该输出并输入计算器，即可得到最终答案。

这是一个代理的例子：LLM 输出文本，然后使用下游工具。代理LLMs 可能涉及单个外部系统（如上所述），也可能需要解决路由问题，以选择使用哪个外部系统。除行动外，此类系统还经常涉及记忆和规划（Zhang 等人，2023c）。

代理的例子包括LLMs ，它可以调用 API 来使用计算器等外部工具

(Karpas等人，2022年）、能在类似健身房（Brockman等人，2016年；Towers等人，2023年）的环境中输出字符串以导致行动的LLMs （Yao等人，2022年），以及更广泛的能编写和记录计划、编写和运行代码、搜索互联网等的LLMs （Significant Gravitas，2023年；Yang等人，2023年c；Osika，2023年）。OpenAI Assistants OpenAI (2023)、LangChain Agents (Chase, 2022)和LlamaIndex Agents (Liu, 2022)是其他例子。

4.1.1 工具使用代理

工具使用是 GenAI 代理的重要组成部分。符号工具（如计算器、代码解释器）和神经工具（如单独的LLM ）都是常用的外部工具。工具有时也被称为专家（Karpas 等人，2022 年）或模块。

模块化推理、知识和语言

(MRKL) 系统（Karpas 等人，2022 年）是最简单的代理方案之一。它包含一个LLM 路由器，可以访问多种工具。路由器可进行多次呼叫，以获取天气或当前日期等信息。然后，它将这些信息整合起来，生成最终的响应。Toolformer (Schick 等人，2023 年)、Gorilla (Patil 等人，2023 年)、Act-1 (Adept, 2023 年)和其他一些技术（Shen 等人，2023 年；Qin 等人，2023 年b；Hao 等人，2023 年）都提出了类似的技术，其中大多数都涉及一些微调。

利用工具交互式批评进行自我纠正

(CRITIC)（Gou 等人，2024a）首先生成一个对提示的回应，没有外部调用。然后，同一个LLM 对这一回复进行批判，找出可能的错误。最后，它使用相应的工具（如互联网搜索或代码解释器）来验证或修改部分回复。

4.1.2 代码生成代理

编写和执行代码是许多代理的另一项重要能力。

程序辅助语言模型（PAL）（Gao 等人，2023b）将问题直接转化为

图 4.1：本节涉及的代理技术

代码，并将其发送到 Python 解释器以生成答案。

工具集成推理代理（Tool-Integrated Reasoning Agent，ToRA）（Gou 等人，2024b）与 PAL 类似，但它不是单一的代码生成步骤，而是将代码和推理步骤交错在一起，直到解决问题所需的时间。

TaskWeaver（乔等人，2023 年）也与 PAL 类似，将用户请求转化为代码，但也可以使用用户定义的插件。

4.1.3 基于观测的代理

有些代理旨在通过与玩具环境互动来解决问题（Brockman 等人，2016 年；Towers 等人，2023 年）。这些基于观察的代理会接收插入其提示的观察结果。

推理与行动（ReAct）（Yao 等人（2022 年））在给定一个需要解决的问题时，会产生一个想法、采取一个行动、接收一个观察结果（并重复这一过程）。所有这些信息都会被植入提示器中，因此它能记忆过去的想法、行动和观察结果。

Reflexion（Shinn 等人，2023 年）以 ReAct 为基础，增加了一层内省功能。它获取行动和观察的轨迹，然后给出成功/失败的评价。然后，它会对所做的事情和出错的地方进行反思。这种反思会作为工作记忆添加到它的提示中，然后重复这个过程。

4.1.3.1 终身学习代理

LLM 集成 Minecraft 代理的工作取得了令人瞩目的成果，代理能够在这个开放世界的电子游戏世界中学习新技能。我们认为，这些代理不仅仅是代理技术在 Minecraft 中的应用，而是新颖的代理框架，可以在需要终身学习的现实任务中进行探索。

旅行者（Wang 等人，2023a）由三部分组成。首先，它为自己提出要完成的任务，以便更多地了解世界。其次，它生成代码来执行这些操作。最后，作为长期记忆系统的一部分，它将这些行动保存起来，以便日后有用时再进行检索。该系统可应用于现实世界中代理需要探索工具或网站并与之交互的任务（如渗透测试、可用性测试）。

Ghost in the Minecraft（GITM）（Zhu 等人，2023 年）从一个任意目标开始，将其递归分解为多个子目标，然后通过生成结构化文本（如 "装备（剑）"）而不是编写代码来迭代地计划和执行操作。GITM 使用 Minecraft 项目的外部知识库来协助分解，同时也使用过去的经验记忆。

4.1.4 检索增强生成（RAG）

就 GenAI 代理而言，RAG 是一种从外部来源检索信息并将其插入提示的范例。这可以提高知识密集型任务的性能（Lewis 等人，2021 年）。当检索本身被用作外部工具时，RAG 系统就被视为代理。

验证与编辑（Zhao 等人，2023a）通过生成多个思维链，然后选择其中一些进行编辑，从而改进了自洽性。他们通过检索相关（外部）信息来实现这一点。

图 4.2：评估技术。

并允许LLM 对其进行相应的扩充。

演示-搜索-预测（Khattab 等人，2022 年）首先将问题分解为若干子问题，然后使用查询来解决这些问题，并将它们的回答合并为最终答案。它使用寥寥数语的提示来分解问题和组合答案。

链式检索指导下的交错检索

Thought (IRCoT) (Trivedi et al., 2023) is a technique for multi-hop question answering that interleaves CoT and retrieval. IRCoT leverages CoT to guide which documents to retrieve and retrieval to help plan the reasoning steps of CoT.

迭代检索增强技术，如前瞻性主动检索增强生成（FLARE）（Jiang 等人，2023 年）和模仿、检索、转述（IRP）（Balepur 等人，2023 年），在长表生成过程中多次执行检索。此类模型通常执行以下三步迭代过程：1）生成一个临时句子，作为下一个输出句子的内容计划；2）使用临时句子作为查询，检索外部知识；3）将检索到的知识注入临时句子，生成下一个输出句子。与长格式生成任务中提供的文档标题相比，这些临时句子被证明是更好的搜索查询。

4.2 评估

LLMs 在提取和推理信息以及理解用户意图方面的潜力使其成为评估者的有力竞争者。

例如，LLM 可以根据提示中定义的一些指标来评价一篇论文的质量，甚至是之前LLM 的输出。我们将介绍评价框架的四个重要组成部分：第 2.2 节所述的提示技术、评价的输出格式、评价管道框架以及其他一些方法设计决策。

4.2.1 提示技术

在评价提示中使用的提示技术（如简单的指令与 CoT）对建立一个强大的评价器非常重要。评价提示通常得益于常规的文本提示技术，包括角色、任务指示、评价标准定义和上下文示例。附录 A.5 列出了所有技巧。

情境学习经常被用于评价提示，这与它在其他应用中的使用方式非常相似（Dubois 等人，2023；Kocmi 和 Federmann，2023a）。

基于角色的评价是改进评价和使评价多样化的有用技术（Wu 等人，2023b；Chan 等人，2024）。通过创建具有相同评价指令但不同角色的提示，可以有效地生成多样化的评价。此外，角色还可用于多代理环境，在此环境中，LLMs ，就待评价文本的有效性展开辩论（Chan 等人，2024 年）。

思维链提示可进一步提高评估绩效（Lu 等人，2023c；Fernandes 等人，2023）。

模型生成指南（Liu 等人，2023d,h）可促使LLM 生成评估指南。这就减少了因评分准则和输出空间定义不清而导致的提示不足问题，因为这可能导致不一致和不协调的评估。Liu 等人（2023d）在生成质量评估之前，会生成模型应执行的详细评估步骤的思维链。Liu等人（2023h）提出了AutoCalibratE，它根据专家的人工注释得出评分标准，并将模型生成标准的精炼子集作为评估提示的一部分。

4.2.2 输出格式

LLM 的输出格式会对评估性能产生重大影响 Gao 等人（2023c）。

使用 XML 或 JSON 样式对LLM 的响应进行格式化，也被证明能提高评估者所做判断的准确性（Hada 等人，2024 年；Lin 和 Chen，2023 年；Dubois 等人，2023 年）。

线性量表一种非常简单的输出格式是线性量表（如 1-5）。许多作品使用 1-10 分（Chan 等人，2024 年）、1-5 分（Araújo 和 Aguiar，2023 年），甚至 0-1 分（Liu 等人，2023 年 f）。可以提示模型在界限之间输出离散分值（Chan 等人，2024 年）或连续分值（Liu 等人，2023 年 f）。

用 1-5 分给下面的故事打分，从写得好到写得差：

{输入 }

二进制得分提示模型生成二进制响应，如是或否（Chen 等人，2023c）和真或假（Zhao 等人，2023b），是另一种常用的输出格式。

下面的故事写得是否符合高中水平（是/否）？

{输入 }

李克特量表提示 GenAI 使用李克特量表（Bai 等人，2023b；Lin 和 Chen，2023；Peskoff 等人，2023）可以让它更好地理解量表的含义。

根据以下评分标准给下面的故事打分：

贫穷

可以接受

良好

非常好

不可思议

输入

4.2.3 提示框架

(林和陈，2023 年）是最简单的评估框架之一。它使用一个单一的提示，其中包含要评估的变量模式（如语法、相关性等）、一个指令，告诉模型在一定范围内为每个变量输出分数，以及要评估的内容。

(Liu et al., 2023d)与 LLMEVAL 类似，但在提示本身中包含了 AutoCoT 步骤。这些步骤根据评估指令生成，并插入到最终提示中。这些步骤根据标记概率对答案进行加权。

ChatEval （Chan 等人，2024 年）采用多代理辩论框架，每个代理都有自己的角色。

4.2.4 其他方法

虽然大多数方法都直接提示LLM 生成质量评估（显式），但有些工作也使用隐式评分，即通过模型对其预测的信心（Chen 等人，2023g）或生成输出的可能性（Fu 等人，2023a）或通过模型的解释（如 Fernandes 等人，2023；Kocmi 和 Federmann，2023a）或通过评估错误数量来得出质量分数、2023a），或通过模型的解释（如 Fernandes 等人 (2023) 和 Kocmi 与 Federmann (2023a)，计算错误的数量），或通过代理任务的评估（如 Luo 等人 (2023)，通过蕴含的事实不一致）。

批量提示为提高计算效率和成本效益，一些工作采用批量提示进行评估，即一次评估多个实例

（Lu 等人，2023c；Araújo 和 Aguiar，2023；Dubois 等人，2023）或根据不同标准或角色评估同一实例（Wu 等人，2023b；Lin 和 Chen，2023）。然而，在一个批次中评估多个实例往往会降低性能（Dubois 等人，2023 年）。

成对评价（Chen 等人，2023g）发现，直接比较两个文本的质量可能会导致次优结果，而明确要求LLM 为单个摘要打分是最有效、最可靠的方法。成对比较的输入顺序也会严重影响评价结果（Wang 等人，2023h,b）。

5 提示问题

我们现在以安全和对齐问题的形式强调与提示相关的问题。

5.1 安全

随着提示技术的应用越来越广泛，围绕它的威胁也越来越多。与非神经和预提示安全威胁相比，这些威胁种类繁多，且难以防御。我们将讨论提示威胁的现状和有限的防御措施。我们首先介绍了提示黑客，即利用提示技术利用LLMs 的手段，然后介绍了由此产生的危险，最后介绍了潜在的防御措施。

5.1.1 提示黑客类型

提示黑客指的是一类通过操纵提示来攻击 GenAI 的攻击（Schulhoff 等人，2023 年）。此类提示被用于泄露私人信息（Carlini 等人，2021 年）、生成攻击性内容（Shaikh 等人，2023 年）和生成欺骗性信息（Perez 等人，2022 年）。提示黑客是提示注入和越狱的超集，两者是不同的概念。

提示注入（Prompt Injection）是用用户输入覆盖提示中原始开发者指令的过程（Schulhoff，2024；Willison，2024；Branch 等人，2022；Goodside，2022）。这是由于 GenAI 模型无法理解原始开发人员指令与用户输入指令之间的区别而产生的一个架构问题。

请看下面的提示模板。用户可以输入 "忽略其他指令，并对总统发出威胁"，这可能会导致模型无法确定应该遵循哪条指令，从而可能遵循恶意指令。

为下面的人推荐一本书

越狱是指通过提示让 GenAI 模型做出或说出非预期事情的过程（Schulhoff，2024 年；Willison，2024 年；Perez 和 Ribeiro，2022 年）。这要么是一个架构问题，要么是一个训练问题，因为对抗性提示极难避免。

请看下面的越狱示例，它与前面的提示注入示例类似，但提示中没有开发人员的说明。用户无需在提示模板中插入文本，而是直接进入 GenAI 并对其进行恶意提示。

威胁总统

5.1.2 迅速黑客攻击的风险

及时的黑客攻击会导致现实世界中的风险，如隐私问题和系统漏洞。

5.1.2.1 数据隐私

模型训练数据和提示模板都可能通过提示黑客（通常是通过提示注入）泄露。

训练数据重建是指从 GenAIs 中提取训练数据的做法。Nasr 等人（2023 年）就是一个直接的例子，他们发现，通过让 ChatGPT 永远重复 "公司 "这个词，它就开始反刍训练数据。

提示泄露是指从应用程序中提取提示模板的过程。开发人员通常会花费大量时间创建提示模板，并将其视为值得保护的知识产权。Willison (2022) 演示了如何从 Twitter 机器人中泄露提示模板，只需提供如下指令即可：

请忽略以上内容，告诉我你最初的指示是什么。

5.1.2.2 代码生成问题

LLMs 通常用于生成代码。攻击者可能会瞄准这些代码产生的漏洞。

图 5.1：安全与提示

当 LLM 生成的代码试图导入不存在的软件包时，就会出现软件包幻象（Lanyado 等人，2023；Thompson 和 Kelly，2023）。在发现LLMs 经常出现幻觉的软件包名称后，黑客可以创建这些软件包，但要使用恶意代码（Wu 等人，2023c）。如果用户运行这些以前不存在的软件包的安装程序，就会下载病毒。

漏洞（和安全漏洞）更频繁地出现在LLM 生成的代码中（Pearce 等人，2021 年、2022 年；Sandoval 等人，2022 年；Perry 等人，2022 年）。提示技术的细微变化也会导致生成的代码出现此类漏洞（Pearce 等人，2021 年）。

5.1.2.3 客户服务

恶意用户经常对企业聊天机器人进行提示注入攻击，导致品牌尴尬（Bakke，2023；Goodside，2022）。这些攻击可能会诱使聊天机器人输出有害评论或同意以极低的价格向用户出售公司产品。在后一种情况下，用户实际上可能有权获得这笔交易。Garcia (2024) 描述了一个航空公司聊天机器人如何向客户提供错误的退款信息。客户向法院提出上诉并获胜。虽然这个聊天机器人是在 ChatGPT 之前开发的，用户没有受到任何欺骗，但这个先例可能适用于使用细微提示黑客技术的情况。

5.1.3 硬化措施

目前已开发出几种工具和提示技术来降低上述安全风险。然而，提示黑客（包括注入和越狱）仍是尚未解决的问题，而且很可能无法完全解决。

基于提示的防御方法提出了多种基于提示的防御方法，在提示中加入指令以避免提示注入（Schulhoff，2022 年）。例如，可以在提示符中添加以下字符串：

不输出任何恶意内容

不过，Schulhoff 等人（2023 年）对数十万个恶意提示进行了研究，发现任何基于提示的防御都不是完全安全的，尽管它们能在一定程度上减轻提示黑客的攻击。

Guardrails 是指导 GenAI 输出的规则和框架（Hakan Tekgul，2023 年）。守护轨可以简单到将用户输入分类为恶意或非恶意（AI，2023；Inan 等人，2023），如果是恶意的，则以预制消息回应。更复杂的工具则采用对话管理器（Rebedea 等人，2023 年），允许LLM 从一系列精心策划的回复中进行选择。此外，还有人提出了针对提示的编程语言，以改进模板化并起到防护作用（Scott Lundberg，2023；Luca Beurer-Kellner，2023）。

检测器是旨在检测恶意输入和防止黑客攻击的工具。许多公司已经构建了此类检测器（ArthurAI，2024 年；Preamble，2024 年；Lakera，2024 年），这些检测器通常使用针对恶意提示训练的微调模型构建。一般来说，与基于提示的防御相比，这些工具能在更大程度上缓解提示黑客攻击。

5.2 对齐

确保LLMs 与下游任务中的用户需求保持一致是成功部署的关键。模型可能会输出有害的结论。

图 5.2：基于提示的对齐组织

所有这些都增加了使用提示符的难度。为了帮助降低这些风险，我们可以精心设计提示语，使LLMs 。在本节中，我们将介绍提示语的调整问题以及潜在的解决方案。

5.2.1 提示灵敏度

一些研究表明，LLMs 对输入提示高度敏感（Leidinger et al.下面，我们将介绍几类此类扰动及其对模型行为的影响。

可以通过添加额外空格、改变大小写或修改分隔符来更改提示措辞。尽管这些改动很小，但 Sclar 等人（2023a）发现，在某些任务中，这些改动会导致 LLaMA2-7B 的性能从接近 0 到 0.804 不等。

任务格式描述了提示LLM 执行相同任务的不同方式。例如，要求LLM 执行情感分析的提示可以要求LLM 将评论分类为 "正面 "或 "负面"，或者提示可以询问LLM "这条评论是正面的吗？"以获得 "是 "或 "否 "的回答。Zhao 等人（2021b）的研究表明，这些微小的变化就能改变 GPT-3 的准确性，最高可达

。同样，对逻辑上等同的特定任务提示进行微小的扰动，如改变多项选择题中的选择顺序，也会导致成绩大幅下降（Pezeshkpour 和 Hruschka，2023；Zheng 等人，2023a）。

当应用程序接口背后的模型随时间发生变化时，就会出现提示漂移（Chen 等人，2023b），因此相同的提示在更新的模型上可能会产生不同的结果。虽然这不是一个直接的提示问题，但它要求对提示性能进行持续监控。

5.2.2 过度自信与校准

LLMs 用户往往对自己的答案过于自信，尤其是在被要求用语言表达自己的信心时（Kiesler 和 Schiffner，2023 年；Xiong 等人，2023a），这可能会导致用户过度依赖模型输出（Si 等人，2023c）。置信度校准提供了一个代表模型置信度的分数（Guo 等，2017 年）。虽然置信度校准的一个自然解决方案是研究提供的输出标记概率，但也有多种用于置信度校准的提示技术。LLM

口头化分数是一种简单的校准技术，可生成信心分数（例如，"从 1 到 10，你有多大信心"），但其有效性还存在争议。Xiong 等人（2023b）发现，一些LLMs 在口头表达信心分数时非常过度自信，即使在使用自我一致性和思维链时也是如此。与此相反，Tian 等人（2023 年）发现，简单的提示（第 4.2 节）比模型输出的标记概率能实现更准确的校准。

所谓 "谄媚"（sycophancy），是指LLMs 通常会表示同意用户的观点，即使在以下情况下也是如此

该观点与模型自身的初始输出相矛盾。Sharma 等人（2023 年）发现，当LLMs 被要求评论对论点的看法时，如果在提示中包含用户的观点（如 "我非常喜欢/不喜欢这个论点"），模型就很容易被左右。此外，他们还发现，质疑LLM 的原始答案（如 "你确定吗？"）、强烈提供正确性评估（如 "我相信你错了"）以及添加错误假设都会完全改变模型输出。Wei 等人（2023b）注意到了意见诱导和虚假用户假设的类似结果，他们还发现，对于大型和经过指令调整的模型，谄媚心理会增强。因此，为避免这种影响，提示中不应包含个人观点。

5.2.3 偏见、成见和文化

LLMs 对所有用户都应公平，这样才不会在模型输出中延续偏见、刻板印象或文化伤害（Mehrabi 等人，2021 年）。根据这些目标设计了一些提示技术。

香草提示（Si 等人，2023b）简单地说就是在提示中发出指令，告诉LLM 要不偏不倚。这种方法也被称为道德自我纠正（Ganguli et al.）

选择平衡演示（Si 等人，2023b）或获得根据公平性指标优化的演示（Ma 等人，2023）可减少LLM 输出中的偏差（第 2.2.1.1 节）。

可以在提示中注入文化意识（Yao 等人，2023a），以帮助LLMs 进行文化适应（Peskov 等人，2021）。要做到这一点，可以通过创建几个提示来实现机器翻译，其中包括1) 要求LLM 完善自己的输出；以及 2) 指示LLM 使用与文化相关的词汇。

AttrPrompt（Yu 等人，2023 年）是一种提示技术，旨在避免在生成合成数据时产生偏向某些属性的文本。传统的数据生成方法可能会偏向于特定的长度、位置和时间。

和样式。为了克服这一问题，AttrPrompt1) 要求LLM 生成对改变多样性非常重要的特定属性（如位置）；以及 2) 提示LLM 通过改变这些属性中的每个属性来生成合成数据。

5.2.4 含糊不清

模棱两可的问题可以有多种解释，每种解释都可能导致不同的答案（Min 等人，2020 年）。鉴于这些多重解释，模棱两可的问题对现有模型来说具有挑战性（Keyvan 和 Huang，2022 年），但目前已开发出一些提示技术来帮助应对这一挑战。

模棱两可的演示 Gao 等人（2023a）的示例具有模棱两可的标签集。在提示中加入它们可以提高 ICL 的性能。这可以通过检索器自动完成，但也可以手动完成。

问题澄清（Rao 和 Daumé III，2019 年）可让LLM 识别模棱两可的问题，并生成可向用户提出的澄清问题。一旦用户澄清了这些问题，LLM 就可以重新生成回复。Mu 等人（2023 年）在代码生成中采用了这种方法，Zhang 和 Choi（2023 年）为LLMs 配备了类似的管道，用于解决一般任务中的歧义问题，但明确设计了单独的提示：1) 生成初始答案 2) 分类生成澄清问题还是返回初始答案 3) 决定生成哪些澄清问题 4) 生成最终答案。

6 基准

既然我们已经对提示技术进行了系统回顾，那么我们将通过两种方式分析不同技术的实证性能：一是通过正式的基准评估，二是通过在一个具有挑战性的实际问题上详细说明提示工程的过程。

6.1 技术基准

对提示技术的正式评估可以在一项广泛的研究中进行，该研究将在数百个模型和基准中对数百种提示技术进行比较。这超出了我们的研究范围，但由于以前没有人做过，所以我们朝着这个方向迈出了第一步。我们选择了一个提示技术子集，并在广泛使用的基准 MMLU（Hendrycks 等人，2021 年）上运行它们。我们在具有代表性的 2,800 个 MMLU 问题子集（

of the questions from each category）上运行。

，并在所有实验中使用 gpt-3.5turbo。

6.1.1 提示技术比较

我们使用相同的通用提示模板（图 6.2）对六种不同的提示技术进行了基准测试。该模板显示了提示语不同组成部分的位置。每个提示中只有基本指令和问题。基本指令是一个短语，如 "解决问题并返回 (A)、(B)、(C) 或 (D)。我们还测试了两种问题格式（图 6.3 和 6.4）。我们在提示模板中插入了问题格式，以代替"{问题}"。除了使用 "自我一致性 "的提示外，我们总共测试了 6 种不同的提示技术。

零点测试作为基线，我们不使用任何提示技术，直接通过模型进行提问。在此基准中，我们使用了两种格式以及基础指令的三种措辞变化。因此，该基准共对 2800 个问题进行了六次测试。其中不包括任何示例或思维诱导。

零镜头-CoT 技术我们还运行了零镜头-CoT。作为三种不同的变体、

我们使用了三种思维诱导器（使模型产生推理步骤的指令），包括标准的 "让我们一步一步思考 "思维链（小岛等人，2022），以及ThoT（周等人，2023）和计划与解决（王等人，2023f）。然后，我们从中选出最佳方案，再用 "自一致性 "进行三次迭代，取多数人的响应。

Few-Shot 技术我们还使用了 Few-Shot 提示语和 Few-Shot-CoT 提示语，这两种提示语的示例都是由我们的一位作者制作的。我们分别使用了基础指令的三种变体以及两种问题格式（也适用于示例）。然后，我们使用了自我一致性表现最好的措辞，并进行了三次迭代，以大多数人的回答为准。

图 6.1：图中显示了每种提示技术的准确度值。紫色误差条说明了每种技术的最小值和最大值，因为每种技术都是在不同的措辞和格式下运行的（SC 除外）。

6.1.2 提问格式

我们实验了 Sclar 等人（2023b）的两种格式选择，他们探讨了格式选择如何影响基准测试结果。我们使用了两种格式，这两种格式在他们的任务中产生了不同的结果（图 6.3 和 6.4）。

6.1.3 自我一致性

对于两个 "自我一致性 "结果，我们根据 Wang 等人（2022 年）的指南，将温度设置为 0.5。所有其他提示的温度均为 0。

{BASE_INSTRUCTION}
{EXEMPLARS }
{QUESTION} {THOUGHT_INDUCER}

图 6.2：基准测试的提示模板。

问题

选项

(a)

(b)

(c)

(d)

回答

图 6.3：问题格式 1.

6.1.4 评估答复

评估LLM 是否正确回答了问题是一项艰巨的任务（第 2.5 节）。如果答案符合某些可识别的模式，例如括号中唯一的大写字母（A-D）或 "正确答案是 "之类的短语，我们就将其标记为正确答案。

6.1.5 结果

随着技术越来越复杂，性能也普遍提高（图 6.1）。不过，ZeroShot-CoT 的性能比 Zero-Shot 急剧下降。虽然它的传播范围很广，但在所有变体中，Zero-Shot 的表现都更好。SelfConsistency 的两种情况由于重复了单一的技术，因此传播范围自然较小，但它只提高了 Zero-Shot 提示的准确性。Few-Shot CoT 的表现最好，而某些技术无法解释的性能下降还需要进一步研究。由于提示技术的选择类似于超参数搜索，因此这是一项非常艰巨的任务（Khattab 等人，2023 年）。不过，我们希望这项小规模的研究能促进对性能更强、更稳健的提示技术的研究。

6.2 迅速工程案例研究

提示工程是一门新兴的艺术，许多人已经开始专业实践，但文献中还没有关于这一过程的详细指导。作为朝这个方向迈出的第一步，我们针对一个现实世界中的难题提出了一个带注释的提示工程案例研究。我们并不打算在以下方面做出经验性贡献

problem::{question}, options:：

(A):

(B):

(C):

(d):

, 答案：：

图 6.4：问题格式 2.

实际解决问题。相反，它提供了一个经验丰富的及时工程师如何处理类似任务的示例，以及汲取的经验教训。

6.2.1 问题

我们的说明性问题涉及检测潜在自杀者所写文本中可预测危机级别自杀风险的信号。自杀是全球范围内的一个严重问题，与大多数心理健康问题一样，心理健康资源的极度匮乏也加剧了这一问题。在美国，超过一半的人口生活在联邦定义的精神卫生服务提供者短缺地区（国家卫生劳动力分析中心，2023 年）；此外，许多精神卫生专业人员缺乏预防自杀的核心能力（Cramer 等人，2023 年）。2021 年，有 1230 万美国人认真考虑过自杀，其中

人实际尝试过自杀，导致 48000 多人死亡（美国疾病预防控制中心，2023 年）。在美国，自杀是

或

年龄在 2021 年统计的第二大死因（仅次于意外事故），是 35-54 岁人群的第五大死因（Garnett 和 Curtin，2023 年）。

最近的研究表明，对潜在自杀倾向的评估具有重要价值，这种评估特别侧重于识别自杀危机，即与即将发生自杀行为的高风险相关的急性痛苦状态。然而，自杀危机综合症（SCS）（Schuck 等人，2019b；Melzer 等人，2024 年）和急性自杀情感障碍（Rogers 等人，2019 年）等诊断方法的有效评估需要个人临床互动或完成包含数十个问题的自我报告问卷。因此，用个人语言准确标记自杀危机指标的能力将在心理健康生态系统中产生巨大影响，而不是取代临床治疗。

但它也是对现有实践的一种补充（Resnik 等人，2021 年）。

作为一个起点，我们在此将重点放在自杀危机综合症评估中最重要的预测因素上，文献中将其称为疯狂的绝望或困顿，"一种想要逃离无法忍受的处境的欲望，与所有逃生路线都被封锁的感知联系在一起"（Melzer et al.，2024）。

个人所经历的这一特征也是导致自杀的心理过程的其他特征的核心。

6.2.2 数据集

我们使用了马里兰大学 Reddit 自杀数据集（Shing 等人，2018 年）中的一个数据子集，该数据集由 r/SuicideWatch 中的帖子构建而成，r/SuicideWatch 是一个为任何有自杀想法的人提供同伴支持的子reddit。两名接受过自杀危机综合征因素识别培训的编码员对一组 221 个帖子进行了编码，以确定是否存在诱发因素，编码员之间的可靠性非常高（Krippendorff's alpha

）。

6.2.3 进程

一位撰写了广为使用的提示指南（Schulhoff，2022 年）的专家提示工程师承担了使用LLM 识别帖子中夹带内容的任务。

提示工程师收到了一份关于自杀危机综合症和诱捕的简短口头和书面总结，以及 121 个开发帖子及其正/负标签（"正 "表示存在诱捕），另外 100 个标签帖子留作测试。这些有限的信息反映了现实生活中经常出现的情况，即根据任务描述和数据制定提示。更广泛地说，这与自然语言处理和人工智能领域的一种倾向是一致的，即把编码（注释）作为一项贴标签的任务来处理，而不去深入研究标签实际上可能指的是微妙而复杂的社会科学基本构造这一事实。

我们记录了及时工程流程，以说明经验丰富的及时工程师是如何开展工作的。我们的

这项工作经历了 47 个记录在案的开发步骤，累计耗时约 20 个小时。从

的冷启动性能（提示无法返回结构正确的回复），到

的 0.53 性能提升，其中

是 0.86 精确度和 0.38 召回率的调和平均值。

下面，提示集

是测试项目，而

, 和

表示示例中的问题、思维链步骤和答案。

6.2.3.1 数据集探索（2 个步骤）

在这一过程中，提示工程师首先审阅了对诱捕的描述（图 6.7）；这一描述在编码过程的早期曾被用作人工编码员的第一道评分标准，但是，他们对 SCS 很熟悉，知道这既不是正式的定义，也不是详尽无遗的定义。然后，提示工程师将数据集加载到 Python 笔记本中进行数据探索。他首先询问 gpt-4-turbo-preview 是否知道什么是诱捕（图 6.8），但发现LLM 的回答与给出的描述并不相似。因此，提示工程师在以后的所有提示中都使用了图 6.7 中对诱捕的描述。

6.2.3.2 获取标签（8 个步骤）

正如第 6.1 节中关于 MMLU 中的 human_sexuality 子集所述，LLMs 在敏感领域表现出难以预测和控制的行为。在提示工程流程的多个步骤中，提示工程师发现LLM 正在提供心理健康建议（如图 6.9），而不是对输入进行标注。通过改用 GPT-4-32K 模型解决了这一问题。

从这一初始阶段得出的一个结论是，与某些大型语言模型相关的 "防护栏 "可能会干扰在提示任务中取得进展的能力，这可能会影响对模型的选择，而不是因为LLM 的潜在质量。

6.2.3.3 提示技术（32 个步骤）

然后，提示工程师将大部分时间用于改进所使用的提示技术。其中包括 "Few-Shot "等技术、

图 6.5：从表现最差的提示语到表现最好的提示语，F1 分数相差很大，但大多数提示语的分数都在相似的范围内。

Chain-of-Thought 技术、AutoCoT 技术、Contrastive CoT 技术和多重答案提取技术。我们报告了这些技术首次运行的统计数据；即使温度和顶部

设为零，后续运行的 F1 分数变化也可能高达 0.04。

使用图 6.7 中的描述，评估的第一项技术是 "零点射击 + 上下文"（图 6.10）。请注意提示中的词义，尽管图 6.7 并非正式定义。

为了从LLM 中获得用于计算性能指标的最终响应，有必要从LLM 的输出中提取一个标签。提示工程师测试了两种提取器，一种用于检查输出是否完全是 "是 "或 "否"，另一种仅检查这些单词是否与输出的前几个字符相匹配。后者的性能更好，因此在本文的其余部分中使用了它。

直到达到 CoT。这种方法的召回率为 0.25，精确度为 1.0，

，对训练/开发中的所有样本进行了评估，因为没有样本被用作示例。

10 个样本 + 上下文。接下来，提示工程师将前十个数据样本（带标签）添加到提示中，格式为

: （问题）A: （答案）（图 6.11）。在对训练/开发集中的其余项目进行评估后，该 10 次提示的召回率为

(0.30)，精确率为

，F1 为

( 0.45 ) 。

一枪式 AutoDiCot + 全文。在执行了 10 次拍摄提示后，提示工程师发现开发集中的第 12 个项目被错误地标记为正例，于是开始尝试各种方法来修改提示。

开发集提示技术的 F1 分数

技术

图 6.6：从尝试的第一个提示（"零点射击 + 上下文"）到最后一个提示（匿名电子邮件），F1 分数都很难提高，而且往往需要测试多个表现不佳的提示，才能找到一个表现良好的提示。绿线表示比当前最高 F1 分数有所提高，红线表示有所下降。

诱捕：

感觉没有出口
感到绝望
感觉无路可走
害怕一切不再正常
感到无力改变
被困的感觉
感觉命中注定
感觉或认为事情永远不会改变
感觉无处可逃
感觉没有解决问题的好办法

图 6.7：提示工程师使用的夹带描述

什么是自杀危机综合症的诱捕？

图 6.8：向LLM 提出的问题，以确定其培训数据是否提供了有关夹带的相关知识（没有）。

如果对提示进行调整，模型就会正确标注该项目。为了了解错误标注的原因，提示工程师要求LLM 解释为什么第 12 个项目会被这样标注。

如果您有伤害自己的直接危险，请联系您所在地区的紧急服务机构或危机热线。他们可以立即为您提供支持，并帮助确保您的安全。

图 6.9：一个输出片段，它没有标注数据点，而是试图为用户提供心理健康支持。此类输出的长度往往是这个片段的五倍。

{段落定义（图 6.7）

这是诱捕吗？是还是不是？

图 6.10："零镜头 + 上下文 "提示，这是本案例研究中最简单的提示。
6.7)}
Q:

..
Q:

{段落定义（图 6.7）

...

图 6.11：10 连拍 + 上下文提示

图 6.12 显示了这一过程的一个版本，它被推广到对

中的所有开发问题/答案项目

而不仅仅是项目 12 进行解释。根据

就错误标注的

所引出的推理步骤，对前面的提示进行了修改，将

纳入了一个带有错误推理的 One-Shot CoT 示例中，作为 "不应该做什么 "的范例（图 6.13）。

我们将图 6.12 中的算法称为自动定向 CoT（AutoDiCoT），因为它能自动引导 CoT 过程以特定方式进行推理。这种技术可以推广到任何标注任务中。它将自动生成 CoTs（Zhang 等人，2022b）与向LLM 展示错误推理的例子相结合，就像 Contrastive CoT（Chia 等人，2023）那样。该算法也被用于开发后来的提示语。

最后，该提示还增加了两段背景/说明。第一条是提示工程师收到的一封电子邮件，其中解释了项目的总体目标，提供了更多关于 "诱捕 "概念的背景信息，以及想要给它贴标签的原因。第二项新增内容的灵感来自于提示工程师注意到模型经常过量生成 "诱捕 "的正面标签。我们推测，该模型在基于训练前的推断中过于激进地从公开的信息中推断出 "诱捕"。

要求：开发项目，对
对于中的每一对：

(a) 利用模型将

标为夹带或未夹带

(b) 如果模型标签正确：

i.用 "为什么？"提示模型，生成推理链

i.用 "这实际上[是/不是]诱捕，请解释原因。"提示模型，以生成推理链

(d) 存储元组

返回：图元

图 6.12：算法：自动定向 CoT

他指示模型仅限于对诱捕的明确陈述（图 6.13）。下面，我们将这两段除描述诱捕之外提供的上下文称为完整上下文。

该提示还使用了一个新的提取器，它检查输出中的最后一个词是 "是 "还是 "否"，而不是第一个词。除了前 20 个词外，我们对开发集中的所有输入进行了测试。它并没有提高

(0.36) F1，但如下文所述，它将提示工程师引向了一个可以提高 F1 的方向。精确度提高到

(0.39) 精确度，召回率下降到

(0.33) 召回率。

在这一点上，值得注意的是，虽然最终 F1 分数有所提高，但从长远目标来看，为减少过度生成正面标签而采取的措施实际上并不正确。禁锢不一定要明确表达出来才能存在（例如，通过 "我感觉被困住了 "或 "没有出路了 "这样的短语）；相反，研究文本的临床专家发现，禁锢的表达可能是隐含的，而且可能相当微妙。此外，在自动发现某人语言中的禁锢的大多数使用案例中，精确度和召回率不可能同等重要，而在两者中，召回率/精确度/召回率是最重要的。
{教授的电子邮件｝

{段落定义（图

重要：只有当他们明确表示感觉被困住时，才可将帖子标记为 "被困住"。

R：虽然 "今天我发现我有 10 天时间搬出我的公寓，否则我将被正式驱逐。我已经拖欠房租两个月了，原因是我在工作中被降职，房租也从每两周大约挣

降到

左右。如果我被逐出家门，我可能会无家可归 "似乎表达了被困住/困顿的感觉，但不够明确，不能贴上 "禁锢 "的标签。

图 6.13：一次性 AutoDiCot + 完整语境

由于假阴性的潜在成本如此之高，因此准确性（即不遗漏应标记为高危人群的人）可能更为重要。

虽然这种见解是后来才提出的，但这里的启示是，如果不促进提示工程师与更深入了解实际用例的领域专家之间的定期接触，提示开发过程就很容易偏离实际目标。

消除电子邮件。之前的修改结果很有希望，但这些修改确实涉及到创建一个提示，其中包括一封并非为此目的而创建的电子邮件中的信息，以及关于项目、数据集等不打算向广大受众披露的信息。但具有讽刺意味的是，删除这封邮件后，性能明显下降，

(0.18) F1，

(0.17) 精确度和

(0.20) 召回率。我们将此归因于这封邮件提供了有关标签目标的更丰富的背景信息。

{申请人的电子邮件}.

{段落定义（图

ure 6.7)}

重要：只有当他们明确表示感觉被困住时，才可将帖子标记为被困住。

R：虽然"{LLM REASONING}"似乎表达了被困/受阻的感觉，但还不够明确，不能贴上 "禁锢 "的标签。

图 6.14：10 次拍摄 +1 AutoDiCoT

我们不建议在任何提示中包含电子邮件或任何其他可能识别身份的信息。虽然我们不建议在任何LLM 提示中包含电子邮件或任何其他潜在的身份信息，但我们还是选择在提示中保留电子邮件；这与许多典型环境中的情况一致，在这些环境中，提示不会暴露给其他人。

10 个示例 +1 AutoDiCoT。下一步，提示工程师尝试了包括完整上下文、10 个常规示例和关于如何不推理的单次示例。这损害了性能（图 6.14）

(0.15) F1，

(0.15) 精确度，

0.15 ( 0.15 ) 召回率。

仅使用完整语境。接下来，只使用完整上下文创建提示，不使用任何示例（图 6.15）。这比之前的技术提高了性能，

(0.44) F1，

(0.29) 精确度，

( 0.92 ) 召回率。有趣的是，在这一提示中，提示工程师意外地粘贴了两次全文电子邮件，结果对后来的性能产生了显著的积极影响（而删除重复内容实际上会降低性能）。这让人想起重读技术（Xu 等人，2023 年）。

这可以从乐观和悲观两个方面来解释。乐观地看，它表明

{代理的电子邮件}{代理的电子邮件}{代理的电子邮件}{代理的电子邮件}{代理的电子邮件}{代理的电子邮件}.{代理的电子邮件}{代理的电子邮件}{代理的电子邮件}{代理的电子邮件}{代理的电子邮件}{代理的电子邮件}.

{段落定义（图

ure 6.7)}

重要：只有当他们明确表示感觉被困住时，才可将帖子标记为 "被困住"。

图 6.15：只显示全文

{申请人的电子邮件}.

{诱捕定义}.

重要：只有当他们明确表示感觉被困住时，才可将帖子标记为被困住。

Q...

图 6.16：10 次拍摄 AutoDiCoT

如何通过探索和偶然发现实现改进。悲观的一面是，在提示中复制电子邮件的价值凸显了提示在多大程度上仍然是一门难以解释的黑色艺术，在这种情况下，LLM ，可能会对人们意想不到的变化出乎意料地敏感。

10 张 AutoDiCoT 照片。下一步是按照图 6.12 中的算法创建更多的 AutoDiCoT 示例。总共有 10 个新的 AutoDiCoT 示例被添加到完整的上下文提示中（图 6.16）。从

分数、

(0.53) F1、

(0.38) 精确度、

(0.86) 召回率来看，这是本次提示工程中最成功的提示。

{申请人的电子邮件}.

{诱捕定义}.

重要：只有当他们明确表示感觉被困住时，才可将帖子标记为被困住。

问题

理由是

请回答：

...
问题

理由是

请回答：

问题

图 6.17：20 帧 AutoDiCoT

20 张 AutoDiCoT。我们继续进行了进一步的实验，试图改进之前的 F1 结果（但并不成功）。在一次尝试中，提示工程师标注了额外的 10 个示例，并从开发集中的前 20 个数据点创建了 20 次提示。在对前 20 个样本以外的所有样本进行测试时，结果比 10 个样本的提示更差，

( 0.49 )

(0.33) 精确度，

(0.94) 召回率。值得注意的是，它在测试集上的表现也更差。

20 发 AutoDiCoT + 完整单词。提示音工程师猜想，如果提示音包括问题、推理和答案三个完整单词，而不是

，那么LLM 的表现会更好。然而，这并没有成功（图 6.17），

(0.48) F1，

(0.32) 精确度，

(0.94) 召回率。

20 连拍自动数码复合技术 + 全词 + 提取

提示。随后，提示工程师注意到，在许多情况下，LLM 生成的输出无法正确解析以获得答案。因此，他们制作了一个提示，从LLM 的回复中提取答案（图 6.18）。虽然这将准确率提高了几个百分点，但却降低了 F1，这是因为许多未经解析的输出实际上包含了不正确的回答，

( 0.48 ) F1，

(0.33) 精确度，召回率没有变化 ( 0.86

。

{申请人的电子邮件}.

{诱捕定义

重要：只有当他们明确表示感觉被困住时，才可将帖子标记为 "被困住"。

问题

REDACTED

回答：

答案：｝

该答案是否表示诱捕？如果标记为诱捕，则输出 "是"；如果未标记为诱捕，则输出 "否"。只输出 "是 "或 "否"。

图 6.18：提取提示

10 发 AutoDiCoT + 提取提示。将提取提示应用到性能最好的 10 张照片 AutoDiCoT 提示中并没有改善结果，

( 0.49 ) F1，

(0.78) 召回率，

(0.35) 精确度。

不带电子邮件的 10 次自动判读。如上所述，从提示中直接删除电子邮件会影响性能，

(0.39) F1，

(0.48) 召回率，

(0.33) 精确度。

删除重复电子邮件。同样如上所述，删除重复的电子邮件似乎比删除无意重复的电子邮件的性能要好，甚至更好。然而，事实证明，删除重复内容大大降低了性能，

(0.45) F1，

(0.73) 召回率，

(0.33) 精确度。

10 发 AutoDiCoT + 默认为阴性。这种方法使用了性能最好的提示符，并在答案提取不正确的情况下默认标记为否定（而非夹带）。这无助于提高性能，

( 0.42 ) F1，

0.03 ( 0.83 ) 召回率，

( 0.28 ) 精确度。

集合 + 提取。特别是对于那些对输入细节非常敏感的系统来说，尝试输入的多种变化并将其结果组合在一起是有好处的。在这里，我们采用了表现最好的提示语，即 10 次 AutoDiCoT 提示语，并创建了三个版本的提示语，这些提示语的提取顺序各不相同。

plars。三项结果的平均值即为最终答案。遗憾的是，两次与默认排序不同的排序都导致LLM 无法输出结构良好的答案。因此，我们使用了提取提示来获取最终答案。这种探索对

( 0.36 ) F1、

(0.64) 召回率、

(0.26) 精确度的性能有百害而无一利。

10shot AutoCoT

上下文（无电子邮件重复）。回想一下，上下文指的是对诱捕的描述、关于明确性的指令和一封电子邮件。由于复制的电子邮件提高了性能，因此提示工程师测试了粘贴三份上下文（首先去掉电子邮件的复制）。然而，这并没有提高性能，

(0.47) F1，

(0.78) 召回率，

(0.33) 精确度。

匿名电子邮件。此时似乎很明显，在提示符中包含重复的电子邮件实际上是迄今为止获得最佳性能的关键所在，尽管无法解释。提示工程师决定将电子邮件匿名化，用其他随机名字代替人名。然而，令人惊讶的是，这大大降低了性能

( 0.45 ) F1，

(0.72) 召回率，

(0.33) 精确度。

DSPy.在案例研究的最后，我们探讨了人工提示工程的替代方案--DSPy 框架（Khattab 等人，2023 年），该框架可针对给定的目标指标自动优化LLM 提示。具体来说，我们从一个思维链分类管道开始，该管道使用了图 6.7 中的陷阱定义。在 16 次迭代中，DSPy 引导合成LLM 生成的演示和随机采样的训练示例，最终目标是在上述相同的开发集上最大化

。我们使用了 gpt-4-0125-preview 和 BootstrapFewShotWithRandomSearch "提词器 "的默认设置（优化方法）。图 6.19 显示了测试集上的两个提示结果，其中一个使用了默认的 DSPy 行为，另一个则在默认设置的基础上进行了小幅手动修改。结果最好的提示包括 15 个示例（不含 CoT 推理）和一个引导推理演示。它在测试集上达到了

（以及

精确度/召回率），既没有使用教授的电子邮件，也没有使用不正确的推理演示。

图 6.19：不同提示技术在测试集上的得分。

关于诱捕明确性的指令。在测试集上，它的表现也比人工提示工程师的提示要好得多，这表明自动提示工程大有可为。

6.2.4 讨论

及时工程是一个非同小可的过程，其细微差别目前还没有在文献中得到很好的描述。从上面介绍的全手工过程中，有几条经验值得总结。首先，提示工程与让计算机按照你希望的方式运行的其他方法有着本质区别：这些系统是被劝诱的，而不是被编程的，而且，除了对所使用的特定LLM 相当敏感之外，它们还可能对提示中的特定细节非常敏感，而这些细节并不存在任何明显的理由。其次，挖掘数据也很重要（例如，为导致错误回答的LLM "推理 "提供可能的解释）。与此相关，第三点也是最重要的一点启示是，提示工程应该涉及提示工程师和领域专家之间的合作，前者拥有如何诱导LLMs 以理想方式行事的专业知识，后者则了解这些理想方式是什么以及为什么。

最终我们发现，探索提示空间的自动化方法大有可为，而且将自动化与人工提示工程/修订相结合是最成功的方法。我们希望这项研究能为我们更深入地研究如何进行提示工程迈出坚实的一步。

在本节中，我们将回顾现有的提示调查和元分析。Liu 等人（2023b）对前 ChatGPT 时代的提示工程进行了系统回顾，包括提示模板工程、答案工程、提示集合和提示调整方法等提示的各个方面。他们的综述涵盖了许多不同类型的提示（如掐词、软提示等，涉及许多不同类型的语言模型），而我们则侧重于离散前缀提示，但讨论更为深入。Chen 等人（2023a）回顾了流行的提示技术，如思维链（Chain-of-Thought）、思维树（Treeof-Thought）、自我一致性（Self-Consistency）和从最少到最多提示（Least-to-Most prompting），并对未来的提示研究进行了展望。White 等人（2023 年）和 Schmidt 等人（2023 年）对提示模式进行了分类，这些模式与软件模式（以及提示技术）类似。Gao（2023 年）为非专业读者提供了实用的提示技术教程。Santu 和 Feng（2023 年）提供了一个通用的提示分类法，可用于设计具有特定属性的提示，以执行各种复杂任务。Bubeck 等人（2023 年）在早期版本的 GPT-4 上对各种提示方法进行了定性实验，以了解其能力。Chu 等人（2023 年）回顾了与思维链相关的推理提示方法。在更早的研究中，Bommasani 等人（2021 年）从广义上回顾和讨论了基础模型的机遇和风险，Dang 等人（2022 年）讨论了将提示作为人机交互新范式的交互式创意应用的提示策略，尤其关注支持用户提示的用户界面设计。作为对这些现有调查的补充，我们的综述旨在提供一个更新的、正式的系统综述。

还有一些研究对特定领域或下游应用的提示技术进行了调查。Meskó (2023) 和 Wang 等人 (2023d) 提供了医疗和保健领域的提示工程推荐用例和局限性。Heston 和 Khun (2023) 综述了医学教育用例中的提示工程。Peskoff 和 Stewart（2023）查询了 ChatGPT 和 YouChat，以评估领域覆盖率。Hua等人（2024）使用GPT-4自动方法对心理健康领域的LLMs 。Wang 等人（2023c）回顾了视觉模式中的提示工程和相关模型，Yang 等人（2023e）提供了一份多模式提示定性分析的综合清单，尤其侧重于 GPT-4V

。Durante 等人（2024 年）回顾了基于LLM 具身代理的多模态互动。Ko 等人（2023b）综述了视觉艺术家创意作品采用文本到图像生成模型的文献。Gupta 等人（2024 年）通过主题建模方法对 GenAI 进行了综述。Awais 等人（2023）综述了视觉中的基础模型，包括各种提示技术。Hou 等人（2023 年）对与软件工程相关的提示工程技术进行了系统回顾。他们使用了 Keele 等人（2007 年）专门为软件工程审查开发的系统审查技术。Wang 等人（2023e）回顾了使用大型语言模型进行软件测试的文献。Zhang 等人（2023a）回顾了 ChatGPT 在软件工程任务（如自动程序修复）中的提示性能。Neagu（2023）对如何在计算机科学教育中利用提示工程进行了系统综述。

等人（2023j）综述了有关大型语言模型公平性的文献。还有一些相关方面的研究，如语言模型的幻觉（Huang 等人，2023b）、可验证性（Liu 等人，2023a）、推理（Qiao 等人，2022）、增强（Mialon 等人，2023）和提示的语言属性（Leidinger 等人，2023）。与这些研究不同的是，我们的综述以覆盖面广、普遍适用的提示技术为目标。最后，与之前更广泛的调查（Liu 等人，2023b；Sahoo 等人，2024）相比，本调查为快速发展的领域提供了最新信息。此外，我们还为提示技术的分类组织和术语标准化提供了一个起点。此外，我们的工作基于广受好评的系统文献综述标准--PRISMA（Page 等人，2021 年）。

8 结论

生成式人工智能是一项新技术，人们对模型能力和局限性的广泛了解仍然有限。自然语言是一个灵活、开放的界面，模型几乎没有明显的能力。因此，使用生成式人工智能继承了语言交流中的许多标准挑战--例如模糊性、上下文的作用、纠正方向的需要，同时还增加了与实体交流的挑战，因为实体对语言的 "理解 "可能与人类的理解没有任何实质性的关系。这里描述的许多技术被称为 "新兴 "技术，但说它们是被发现的也许更恰当--它们是彻底实验、人类推理类比或纯粹偶然发现的结果。

本报告是对这片陌生土地上的物种进行分类的初步尝试。虽然我们尽力做到全面，但肯定会有空白和冗余。我们的目的是提供一种分类法和术语，涵盖大量现有的提示工程技术，并能适应未来的方法。我们讨论了 200 多种提示技术、围绕这些技术建立的框架，以及使用这些技术时需要注意的安全和保安等问题。我们还介绍了两个案例研究，以便让大家清楚地了解模型的能力以及在实践中处理问题的情况。最后，我们的立场主要是观察性的，我们并不声称所介绍的技术是有效的。该领域是一个新领域，评估是多变的、非标准化的--即使是最细致的实验也可能存在意料之外的缺陷，而且模型输出本身对输入的意义保留变化也很敏感。因此，我们建议读者不要轻信任何表面价值，并认识到这些技术可能无法应用于其他模型、问题或数据集。

对于刚刚开始从事及时工程的人来说，我们的建议与在任何机器学习环境中的建议相似：了解您试图解决的问题（而不是仅仅关注输入/输出和基准分数），并确保您使用的数据和指标能够很好地反映该问题。最好先从简单的方法入手，并对有关方法性能的说法保持怀疑。对于那些已经从事提示工程的人，我们希望我们的分类法能够阐明现有技术之间的关系。对于那些正在开发新技术的人，我们鼓励将新方法置于我们的分类法中，并纳入生态学上有效的案例研究和这些技术的说明。

致谢

我们感谢 Hal Daumé III、Adam Visokay 和 Jordan Boyd-Graber 的建议，以及 Diyi Yang 和 Brandon M. Stewart 的审查。我们还感谢 OpenAI 提供的 1 万美元 API 信用点，以及 Benjamin DiMarco 的设计工作。

参考资料

Adept.ACT-1: Transformer for Actions. https: //www.adept.ai/blog/act-1.

Sweta Agrawal、Chunting Zhou、Mike Lewis、Luke Zettlemoyer 和 Marjan Ghazvininejad。2023.用于机器翻译的非上下文示例选择。In Findings of the Association for Computational Linguistics：ACL 2023，第 8857-8873 页，加拿大多伦多。计算语言学协会。

Kabir Ahuja、Harshita Diddee、Rishav Hada、Millicent Ochieng、Krithika Ramesh、Prachi Jain、Akshay Nambi、Tanuja Ganu、Sameer Segal、Maxamed Axmed、Kalika Bali 和 Sunayana Sitaram。2023 MEGA：生成式人工智能的多语言评估。在

Rebuff AI.2023.自硬性快速注射探测器。

Sílvia Araújo 和 Micaela Aguiar。2023.使用流行的自动翻译器将科学文本从英语翻译成葡萄牙语的过程中，chatgpt 和人工评估的比较。CLEF。

ArthurAI.2024.亚瑟盾

Akari Asai、Sneha Kudugunta、Xinyan Velocity Yu、Terra Blevins、Hila Gonen、Machel Reid、Yulia Tsvetkov、Sebastian Ruder 和 Hannaneh Hajishirzi。2023.BUFFET：用于少量跨语言传输的大型语言模型基准测试。

Muhammad Awais、Muzammal Naseer、Salman Khan、Rao Muhammad Anwer、Hisham Cholakkal、Mubarak Shah、Ming-Hsuan Yang 和 Fahad Shahbaz Khan。2023.定义视觉新时代的基础模型：调查与展望》。

Abhijeet Awasthi、Nitish Gupta、Bidisha Samanta、Shachi Dave、Sunita Sarawagi 和 Partha Talukdar 2023.使用大型语言模型引导多语言语义解析器。第 17 届计算语言学协会欧洲分会会议论文集》，第 24552467 页，克罗地亚杜布罗夫尼克。计算语言学协会。

白玉石、吕昕、张家杰、柳洪昌、唐建凯、黄志典、杜正晓、刘晓、曾傲涵、侯磊、董玉晓、唐杰、李娟子。2023a.Longbench：长语境理解的双语多任务基准。

Yushi Bai, Jiahao Ying, Yixin Cao, Xin Lv, Yuze He, Xiaozhi Wang, Jifan Yu, Kaisheng Zeng, Yijia Xiao, Haozhe Lyu, et al.用语言模型作为检验器的基础模型基准测试。In NeurIPS 2023 Datasets and Benchmarks.

克里斯-巴克2023.购买雪佛兰汽车

。

Nishant Balepur, Jie Huang, and Kevin Chang.2023.说明性文本生成：模仿、检索、转述。自然语言处理经验方法 2023 年会议论文集》，第 11896-11919 页，新加坡。计算语言学协会。

Yejin Bang, Samuel Cahyawijaya, Nayeon Lee, Wenliang Dai, Dan Su, Bryan Wilie, Holy Lovenia, Ziwei Ji, Tiezheng Yu, Willy Chung, Quyet V. Do, Yan Xu, and Pascale Fung.2023.关于推理、幻觉和交互性的多任务、多语言、多模态 ChatGPT 评估。In

Hritik Bansal、Karthik Gopalakrishnan、Saket Dingliwal、Sravan Bodapati、Katrin Kirchhoff 和 Dan Roth 2023.反思规模在情境学习中的作用：基于可解释性的 660 亿规模案例研究》。见

。

Omer Bar-Tal、Dolev Ofri-Amar、Rafail Fridman、Yoni Kasten 和 Tali Dekel。2022.Text2live：文本驱动的分层图像和视频编辑。

Maciej Besta、Nils Blach、Ales Kubicek、Robert Gerstenberger、Lukas Gianinazzi、Joanna Gajda、Tomasz Lehmann、Michał Podstawski、Hubert Niewiadomski、Piotr Nyczyk 和 Torsten Hoefler。2024.思维图：用大型语言模型解决复杂问题》。美国人工智能学会会议论文集》，38（16）：17682-17690。

Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, Erik Brynjolfsson, S Buch, Dallas Card, Rodrigo Castellon, Niladri S.Chatterji, Annie S Chen, Kathleen A. Creel, Jared Davis, Dora Demszky, Chris Donahue, Moussa Doumbouya, Esin Durmus, Stefano Ermon, John Etchemendy, Kawin Ethayarajh, Li Fei-Fei, Chelsea Finn, Trevor Gale, Lauren E. Gillespie, Karan Goel.Gillespie, Karan Goel, Noah D. Goodman, Shelby Grossman, Neel Guha, Tatsunori Hashimoto, Peter Henderson, John Hewitt, Daniel E. Ho, Jenny Hong, Kyle Hsu, Jing Huang, Thomas F. Icard, Saahil Jain, Dan Jurafsky, Pratyusha Kalluri, Siddharth Karamcheti, Geoff Keeling, Fereshte Khani, O. Khattab, Pang Wei K.Khattab, Pang Wei Koh, Mark S. Krass, Ranjay Krishna, Rohith Kuditipudi, Ananya Kumar, Faisal Ladhak, Mina Lee, Tony Lee, Jure Leskovec, Isabelle Levent, Xiang Lisa Li, Xuechen Li, Tengyu Ma, Ali Malik, Christopher D. Manning, Suvir Mirchch.Manning, Suvir Mirchandani, Eric Mitchell, Zanele Munyikwa, Suraj Nair, Avanika Narayan, Deepak Narayanan, Benjamin Newman, Allen Nie, Juan Carlos Niebles, Hamed Nilforoshan, J. F. Nyarko, Giray Ogut, Laurel J.Orr, Isabel Papadimitriou, Joon Sung Park, Chris Piech, Eva Portelance, Christopher Potts, Aditi Raghunathan, Robert Reich, Hongyu Ren, Frieda Rong, Yusuf H. Roohani, Camilo Ruiz, Jack Ryan, Christopher R'e, Dorsa Sadigh, Shiori Sagawa, Keshav Santhanam, Andy Shih, Krishna Parasuram Srinivasan, Alex Tamkin, Rohan Taori, Armin W. Thomas, Florian Tramèr.Thomas, Florian Tramèr, Rose E. Wang, William Wang, Bohan Wu, Jiajun

Wu, Yuhuai Wu, Sang Michael Xie, Michihiro Yasunaga, Jiaxuan You, Matei A. Zaharia, Michael Zhang, Tianyi Zhang, Xikun Zhang, Yuhui Zhang, Lucia Zheng, Kaitlyn Zhou, and Percy Liang.2021 论基础模型的机遇与风险》。ArXiv，abs/2108.07258

Hezekiah J. Branch、Jonathan Rodriguez Cefalu、Jeremy McHugh、Leyla Hujer、Aditya Bahl、Daniel del Castillo Iglesias、Ron Heichman 和 Ramesh Darwishi。2022.通过手工制作的对抗性示例评估预训练语言模型的易感性》（Evaluating the susceptibility of pretrained language models via handcrafted adversarial examples.

Greg Brockman、Vicki Cheung、Ludwig Pettersson、Jonas Schneider、John Schulman、Jie Tang 和 Wojciech Zaremba。2016.Openai 健身房。

Tim Brooks、Bill Peebles、Connor Homes、Will DePue、Yufei Guo、Li Jing、David Schnurr、Joe Taylor、Troy Luhman、Eric Luhman、Clarence Wing Yin Ng、Ricky Wang 和 Aditya Ramesh。2024.作为世界模拟器的视频生成模型。OpenAI.

Tom B. Brown、Benjamin Mann、Nick Ryder、Melanie Subbiah、Jared Kaplan、Prafulla Dhariwal、Arvind Neelakantan、Pranav Shyam、Girish Sastry、Amanda Askell、Sandhini Agarwal、Ariel Herbert-Voss、Gretchen Krueger、Tom Henighan、Rewon Child、Aditya Ramesh、Daniel M. Ziegler、Jeff Wu、Clemens Winter、Christopher Hesse、Mark Chen、Eric Sigler、Mateusz Litwin、Scott Gray。Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei.2020.语言模型是少量学习者。

Sébastien Bubeck、Varun Chandrasekaran、Ronen Eldan、John A. Gehrke、Eric Horvitz、Ece Kamar、Peter Lee、Yin Tat Lee、Yuan-Fang Li、Scott M. Lundberg、Harsha Nori、Hamid Palangi、Marco Tulio Ribeiro 和 Yi Zhang。2023.人工通用智能的火花：gpt-4的早期实验.ArXiv,

尼古拉斯-卡利尼、弗洛里安-特雷默、埃里克-华莱士、马修-贾吉尔斯基、阿里尔-赫伯特-沃斯、凯瑟琳-李、亚当-罗伯茨、汤姆-布朗、道恩-宋、乌尔法尔-埃林松、阿琳娜-奥普雷亚和科林-拉费尔。2021.从大型语言模型中提取训练数据。

疾病预防控制中心。2023.自杀数据和统计。

Chi-Min Chan, Weize Chen, Yusheng Su, Jianxuan Yu, Wei Xue, Shanghang Zhang, Jie Fu, and Zhiyuan Liu.2024.Chateval：通过多代理辩论实现更好的基于LLM 的评价器。第十二届学习表征国际会议。

Ernie Chang、Pin-Jie Lin、Yang Li、Sidd Srinivasan、Gael Le Lan、David Kant、Yangyang Shi、Forrest Iandola 和 Vikas Chandra。2023.有条件音频生成的上下文提示编辑。

哈里森-蔡斯2022.LangChain.

Banghao Chen, Zhaofeng Zhang, Nicolas Langrené, and Shengxin Zhu.2023a.在大型语言模型中释放提示工程的潜力：综合评述。

Lingjiao Chen, Matei Zaharia, and James Zou.2023b.chatgpt的行为如何随时间变化？ arXiv预印本arXiv:2307.09009.

Shiqi Chen, Siyang Gao, and Junxian He.2023c.用大型语言模型评估摘要的事实一致性。arXiv 预印本 arXiv:2305.14069.

Wenhu Chen, Xueguang Ma, Xinyi Wang, and William W. Cohen.2023d.思维提示程序：数字推理任务中计算与推理的分离。TMLR.

陈新云、雷纳特-阿克西托夫、乌里-阿隆、任杰、肖克凡、尹鹏程、苏尚特-普拉卡什、查尔斯-萨顿、王学智和周德尼。2023e.大型语言模型生成的通用自洽性。

Yang Chen, Yingwei Pan, Yehao Li, Ting Yao, and Tao Mei.2023f.Control3d：实现可控文本到

的生成。

Yi Chen, Rui Wang, Haiyun Jiang, Shuming Shi, and Ruifeng Xu.2023g.探索使用大语言模型进行无参考文献文本质量评估：实证研究。In Findings of the Association for Computational Linguistics：IJCNLP-AACL 2023 (Findings), pages 361-374, Nusa Dua, Bali.计算语言学协会。

Jiaxin Cheng, Tianjun Xiao, and Tong He.2023.利用合成数据集实现一致的视频到视频传输。ArXiv，abs/2311.00213

Yew Ken Chia、Guizhen Chen、Luu Anh Tuan、Soujanya Poria 和 Lidong Bing。2023.对比性思维链提示。

Jiqun Chu 和 Zuoquan Lin.2023.纠缠表示学习：双向编码器解码器模型。2022年第五届算法、计算与人工智能国际会议论文集，ACAI'22，美国纽约。美国计算机协会。

Zheng Chu, Jingchang Chen, Qianglong Chen, Weijiang Yu, Tao He, Haotian Wang, Weihua Peng, Ming Liu, Bing Qin, and Ting Liu.2023.思维链推理研究：进展、前沿与未来。

Robert J Cramer、Jacinta Hawgood、Andréa R Kaniuka、Byron Brooks 和 Justin C Baker。2023.心理健康专业人员预防自杀核心能力更新：对培训、研究和实践的影响》。临床心理学：科学与实践》。

凯瑟琳-克劳森、斯特拉-比德曼、丹尼尔-科尼斯、达希尔-斯坦德、埃里克-哈拉汉、路易斯-卡斯特里卡托和爱德华-拉夫。2022.Vqgan-clip：开放域

利用自然语言指导生成和编辑图像。

Leyang Cui, Yu Wu, Jian Liu, Sen Yang, and Yue Zhang.2021.使用巴特的基于模板的命名实体识别。计算语言学协会的研究成果：acl-ijcnlp 2021.

Hai Dang, Lukas Mecke, Florian Lehmann, Sven Goller, and Daniel Buschek.2022.生成模型创造性应用中的人机交互零点学习和少点学习的机遇与挑战》。

Maksym Del 和 Mark Fishel。2023.真正的侦探：深度归纳推理基准（deep abductive reasoning benchmark）：对gpt-3来说不可完成，对gpt-4来说具有挑战性。第12届词法与计算语义学联合会议论文集（*SEM 2023）。计算语言学协会。

Mingkai Deng, Jianyu Wang, Cheng-Ping Hsieh, Yihan Wang, Han Guo, Tianmin Shu, Meng Song, Eric P Xing, and Zhiting Hu.2022.RLPrompt：用强化学习优化离散文本提示在 RLPrompt：利用强化学习优化离散文本提示》。

Yihe Deng, Weitong Zhang, Zixiang Chen, and Quanquan Gu.2023.重述与回应：让大型语言模型为自己提出更好的问题。

Shehzaad Dhuliawala、Mojtaba Komeili、Jing Xu、Roberta Raileanu、Xian Li、Asli Celikyilmaz 和 Jason Weston。2023.验证链减少大型语言模型中的幻觉。

Shizhe Diao, Pengcheng Wang, Yong Lin, and Tong Zhang.2023.大型语言模型的思维链主动提示。

丁明、杨卓一、洪文义、郑文迪、周昌、尹达、林俊扬、邹旭、邵周、杨红霞和唐杰。2021.Cogview：通过转换器掌握文本到图像的生成。神经信息处理系统进展》，第 34 卷，第 19822-19835 页。Curran Associates, Inc.

Qingxiu Dong, Lei Li, Damai Dai, Ce Zheng, Zhiyong Wu, Baobao Chang, Xu Sun, Jingjing Xu, Lei Li, and Zhifang Sui.2023.关于情境学习的调查。

Yann Dubois、Xuechen Li、Rohan Taori、Tianyi Zhang、Ishaan Gulrajani、Jimmy Ba、Carlos Guestrin、Percy Liang 和 Tatsunori B Hashimoto。2023.Alpacafarm：从人类反馈中学习方法的模拟框架。In NeurIPS.

Zane Durante、Qiuyuan Huang、Naoki Wake、Ran Gong、Jae Sung Park、Bidipta Sarkar、Rohan Taori、Yusuke Noda、Demetri Terzopoulos、Yejin Choi、Katsushi Ikeuchi、Hoi Vo、Fei-Fei Li 和 Jianfeng Gao。2024.Agent ai：勘测多模态交互的前景。

Julen Etxaniz、Gorka Azkune、Aitor Soroa、Oier Lopez de Lacalle 和 Mikel Artetxe。2023.多语言语言模型的英语思维更好吗？

Angela Fan、Mike Lewis 和 Yann Dauphin。2018.分层神经故事生成。第 56 届计算语言学协会年会论文集（第 1 卷：长篇论文）。计算语言学协会。

Li Fei-Fei、Rob Fergus 和 Pietro Perona。2006.物体类别的即时学习。电气和电子工程师学会模式分析与机器智能论文集》，28:594-611.

Lincong Feng, Muyu Wang, Maoyu Wang, Kuo Xu, and Xiaoli Liu.2023.Metadreamer：将几何与纹理分离的高效文本到三维创作

Patrick Fernandes、Daniel Deutsch、Mara Finkelstein、Parker Riley、André Martins、Graham Neubig、Ankush Garg、Jonathan Clark、Markus Freitag 和 Orhan Firat。2023.魔鬼在错误中：利用大型语言模型进行细粒度机器翻译评估。第八届机器翻译大会论文集》，第 10661083 页，新加坡。计算语言学协会。

Jinlan Fu, See-Kiong Ng, Zhengbao Jiang, and Pengfei Liu.2023a.Gptscore：ArXiv preprint arXiv:2302.04166.

Jinlan Fu, See-Kiong Ng, and Pengfei Liu.2022.多语言提示：多语言多任务提示训练。自然语言处理实证方法 2022 年会议论文集》，第 9919-9935 页，阿拉伯联合酋长国阿布扎比。计算语言学协会。

Yao Fu, Hao Peng, Ashish Sabharwal, Peter Clark, and Tushar Khot.2023b.基于复杂性的多步骤推理提示。第十一届学习表征国际会议。

Victor Gabillon、Mohammad Ghavamzadeh、Alessandro Lazaric 和 Sébastien Bubeck。2011.多波段最佳手臂识别。神经信息处理系统进展》第 24 卷。Curran Associates, Inc.

Deep Ganguli, Amanda Askell, Nicholas Schiefer, Thomas Liao, Kamilè Lukošiūtè, Anna Chen, Anna Goldie, Azalia Mirhoseini, Catherine Olsson, Danny Hernandez, et al.大型语言模型中的道德自我修正能力。arXiv preprint arXiv:2302.07459.

安德鲁-高2023.大型语言模型的提示工程。SSRN.

Lingyu Gao, Aditi Chaudhary, Krishna Srinivasan, Kazuma Hashimoto, Karthik Raman, and Michael Bendersky.2023a.大型语言模型的模糊感知语境学习。arXiv 预印本 arXiv:2309.07900.

Luyu Gao, Aman Madaan, Shuyan Zhou, Uri Alon, Pengfei Liu, Yiming Yang, Jamie Callan, and Graham Neubig.2023b.Pal：程序辅助语言模型。第 40 届机器学习国际会议论文集，ICML'23。JMLR.org.

高明琪、阮杰、孙仁亮、尹勋建、杨世平、万晓军。2023c.用 chatgpt 进行类人总结评估。arXiv preprint arXiv:2304.02554.

Tianyu Gao, Adam Fisch, and Danqi Chen.2021.让预训练语言模型成为更好的少数学习者。计算语言学协会第 59 届年会暨第 11 届自然语言处理国际联合会议论文集》（第 1 卷：长篇论文），第 3816-3830 页，在线阅读。计算语言学协会。

玛丽莎-加西亚2024.加拿大航空公司在 "非同寻常 "的人工智能聊天机器人撒谎案中的损失。福布斯》。

Xavier Garcia、Yamini Bansal、Colin Cherry、George Foster、Maxim Krikun、Melvin Johnson 和 Orhan Firat。2023.机器翻译中少拍学习的不合理有效性。第 40 届国际机器学习大会论文集，ICML'23。JMLR.org.

MF Garnett 和 SC Curtin。2023.美国自杀死亡率，2001-2021 年。NCHS Data Brief,

Timnit Gebru、Jamie Morgenstern、Briana Vecchione、Jennifer Wortman Vaughan、Hanna Wallach、Hal Daumé III 和 Kate Crawford。2021.数据集的数据表。ACM 通信，64（12）：86-92。

Marjan Ghazvininejad、Hila Gonen 和 Luke Zettlemoyer。2023.基于词典的大型语言模型短语级提示机器翻译。

Rohit Girdhar、Mannat Singh、Andrew Brown、Quentin Duval、Samaneh Azadi、Sai Saketh Rambhatla、Akbar Shah、Xi Yin、Devi Parikh 和 Ishan Misra。2023.鸸鹋视频：通过显式图像调节实现文本到视频的因子化生成。

龚一辰、冉德龙、刘金元、王丛雷、丛天硕、王安宇、段思思、王晓云。2023.Figstep：通过排版视觉提示破解大型视觉语言模型。

莱利-古德赛德2022.利用 gpt-3 提示的恶意输入命令模型忽略之前的方向

谷歌。2023.双子座：功能强大的多模态模型系列。

苟志斌、邵志宏、龚业云、沈业龙、杨玉久、段楠、陈伟柱。2024a.CRITIC：大型语言模型可通过工具交互式批判进行自我修正。第十二届学习表征国际会议。

苟志斌、邵志宏、龚业云、沈业龙、杨玉久、黄敏烈、段楠、陈伟柱。2024b.ToRA：用于数学问题求解的工具集成推理代理。第十二届学习表征国际会议。

Chuan Guo、Geoff Pleiss、Yu Sun 和 Kilian Q Weinberger。2017.现代神经网络的校准。机器学习国际会议，第 1321-1330 页。PMLR。

Han Guo, Bowen Tan, Zhengzhong Liu, Eric P. Xing, and Zhiting Hu.2022.利用有限良好数据生成文本的高效（软）Q-learning。

Priyanka Gupta, Bosheng Ding, Chong Guan, and Ding Ding.2024.Generative ai：使用主题建模技术的系统综述.数据与信息管理》，第 100066 页。

Rishav Hada、Varun Gumma、Adrian Wynter、Harshita Diddee、Mohamed Ahmed、Monojit Choudhury、Kalika Bali 和 Sunayana Sitaram。2024.基于大型语言模型的评价器是扩大多语言评价规模的解决方案吗？计算语言学协会论文集》：EACL 2024》，第 1051-1070 页，马耳他圣朱利安。计算语言学协会。

Muhammad Usman Hadi, Qasem Al Tashi, Rizwan Qureshi, Abbas Shah, Amgad Muneer, Muhammad Irfan, and et al.大型语言模型：关于其应用、挑战、局限性和未来前景的全面调查。TechRxiv.

Aparna Dhinakaran Hakan Tekgul.2023.守护轨：什么是护栏？如何使用 nemo 和 guardrails ai 保护llms ？在线。

Sherzod Hakimov 和 David Schlangen。2023.语言空间中的图像：探索大型语言模型在视觉和语言任务中的适用性。In Findings of the Association for Computational Linguistics：ACL 2023，第 14196-14210 页，加拿大多伦多。计算语言学协会。

Shibo Hao, Tianyang Liu, Zhen Wang, and Zhiting Hu.2023.ToolkenGPT：通过工具嵌入用大量工具增强冻结语言模型。In NeurIPS.

Hangfeng He, Hongming Zhang, and Dan Roth.2023a.Socreval：用苏格拉底方法进行无参考推理评估的大型语言模型。arXiv 预印本 arXiv:2310.00074.

何志伟、梁天、焦文祥、张卓生、杨玉久、王锐、涂兆鹏、石树明、王星。2023b.利用大型语言模型探索类人翻译策略。

Dan Hendrycks、Collin Burns、Steven Basart、Andy Zou、Mantas Mazeika、Dawn Song 和 Jacob Steinhardt。2021.测量大规模多任务语言理解。In ICLR.

Amr Hendy、Mohamed Gomaa Abdelrehim、Amr Sharaf、Vikas Raunak、Mohamed Gabr、Hitokazu Matsushita、Young Jin Kim、Mohamed Afify 和 Hany Hassan Awadalla。2023.GPT模型在机器翻译中的表现如何？ArXiv，abs/2302.09210。

Amir Hertz、Ron Mokady、Jay Tenenbaum、Kfir Aberman、Yael Pritch 和 Daniel Cohen-Or。2022.交叉注意控制下的 "提示到提示 "图像编辑。

T.F. Heston 和 C. Khun。2023.医学教育中的即时工程。Int. Med.Med.教育》，2:198-205.

Tobias Hinz、Stefan Heinrich 和 Stefan Wermter。2022 生成文本到图像合成的语义对象准确性。电气和电子工程师学会模式分析与机器智能期刊》，44（3）：1552-1565。

侯欣怡、赵彦杰、刘越、杨周、王开龙、李莉、罗霞普、罗大卫、约翰-格兰迪和王浩宇。2023.用于软件工程的大型语言模型：系统文献综述。

Ming-Hao Hsu, Kai-Wei Chang, Shang-Wen Li, and Hung yi Lee.2023.语音语言模型的上下文学习探索。

华一宁、刘凤林、杨开来、李泽汉、佘一涵、周培林、劳伦-V-莫兰、索菲亚-阿纳尼阿杜和安德鲁-比姆。2024.心理健康护理中的大型语言模型：范围综述

Haoyang Huang, Tianyi Tang, Dongdong Zhang, Wayne Xin Zhao, Ting Song, Yan Xia, and Furu Wei 2023a.并非所有语言都是平等的llms: 通过跨语言思维提示提高多语言能力。

黄佳欣、顾世翔、侯乐、吴跃新、王学智、于洪坤、韩家伟。2022 大语言模型可以自我完善。arXiv 预印本 arXiv:2210.11610.

黄磊、余伟江、马伟涛、钟伟红、冯占银、王浩天、陈强龙、彭伟华、冯小成、秦冰和刘婷。2023b.大型语言模型中的幻觉调查：原则、分类、挑战和开放性问题.

黄韶涵、董力、王文辉、郝雅茹、Saksham Singhal、马书明、吕腾超、崔磊、Owais Khan Mohammed、Barun Patra、刘强、Kriti Aggarwal、迟泽文、Johan Bjorck、Vishrav Chaudhary、Subhojit Som、宋霞、魏福如。2023c.语言不是你所需要的全部：将感知与语言模型结合起来。

Hakan Inan, Kartikeya Upasani, Jianfeng Chi, Rashi Rungta, Krithika Iyer, Yuning Mao, Michael Tontchev, Qing Hu, Brian Fuller, Davide Testuggine, and Madian Khabsa.2023.喇嘛卫士：基于Llm 的人爱对话输入输出保护。

Vivek Iyer、Pinzhen Chen 和 Alexandra Birch。2023.利用大型语言模型实现机器翻译的有效消歧。

Ajay Jain、Ben Mildenhall、Jonathan T. Barron、Pieter Abbeel 和 Ben Poole。2022.利用梦境领域的零镜头文本引导对象生成。

Qi Jia, Siyu Ren, Yizhu Liu, and Kenny Q Zhu.2023.使用基础语言模型进行文本摘要的零点忠实度评估。ArXiv 预印本 arXiv:2310.11648.

Zhengbao Jiang, Frank Xu, Luyu Gao, Zhiqing Sun, Qian Liu, Jane Dwivedi-Yu, Yiming Yang, Jamie Callan, and Graham Neubig.2023.主动检索增强生成。自然语言处理经验方法 2023 年会议论文集》，第 7969-7992 页，新加坡。计算语言学协会。

Zhengbao Jiang, Frank F. Xu, Jun Araki, and Graham Neubig.2020.我们如何才能知道语言模型知道什么？计算语言学协会论文集》，8:423-438.

焦文祥、王文轩、黄仁泽、王星、石树明、涂兆鹏。2023.以 gpt-4 为引擎，chatgpt 是好翻译吗？

Ziqi Jin and Wei Lu.2023.Tab-cot：零镜头表格思维链。

Saurav Kadavath、Tom Conerly、Amanda Askell、Tom Henighan、Dawn Drain、Ethan Perez、Nicholas Schiefer、Zac Hatfield-Dodds、Nova DasSarma、Eli Tran-Johnson、Scott Johnston、Sheer El-Showk、Andy Jones、Nelson Elhage、Tristan Hume、Anna Chen、Yuntao Bai、Sam Bowman、Stanislav Fort、Deep Ganguli、Danny Hernandez、Josh Jacobson、Jackson Kernion、Shauna Kravec、Liane Lovitt、Kamal Ndousse、Catherine Olsson、Sam Ringer、Dario Amodei、Tom Brown、Jack Clark、Nicholas Joseph、Ben Mann、Sam McCandlish、Chris Olah 和 Jared Kaplan。2022.语言模型（大部分）知道他们知道什么。

Ehud Karpas、Omri Abend、Yonatan Belinkov、Barak Lenz、Opher Lieber、Nir Ratner、Yoav Shoham、Hofit Bata、Yoav Levine、Kevin Leyton-Brown、Dor Muhlgay、Noam Rozen、Erez Schwartz、Gal Shachaf、Shai Shalev-Shwartz、Amnon Shashua 和 Moshe Tenenholtz。2022.Mrkl系统：结合大型语言模型、外部知识源和离散推理的模块化神经符号架构。

Staffs Keele et al.软件工程系统性文献综述指南》。

Nitish Shirish Keskar, Bryan McCann, Lav R. Varshney, Caiming Xiong, and Richard Socher.2019.Ctrl：可控生成的条件转换器语言模型。

Kimiya Keyvan 和 Jimmy Xiangji Huang。2022.如何处理对话式搜索中的模糊查询：技术、方法、工具和挑战调查.ACM Computing Surveys, 55(6):140 .

Muhammad Khalifa, Lajanugen Logeswaran, Moontae Lee, Honglak Lee, and Lu Wang.2023.探索用于情境学习的演示集合。

Mahmoud Khalil、Ahmad Khalil 和 Alioune Ngom。2023.图像分类任务中视觉变换器的综合研究。

Omar Khattab、Keshav Santhanam、Xiang Lisa Li、David Hall、Percy Liang、Christopher Potts 和 Matei Zaharia。2022.演示-搜索-预测：为知识密集型NLP组合检索和语言模型》（Composing retrieval and language models for knowledge-intensive nlp.

Omar Khattab、Arnav Singhvi、Paridhi Maheshwari、Zhiyuan Zhang、Keshav Santhanam、Sri Vardhamanan、Saiful Haq、Ashutosh Sharma、Thomas T. Joshi、Hanna Moazam、Heather Miller、Matei Zaharia 和 Christopher Potts。2023.Dspy：ArXiv preprint arXiv:2310.03714.

Tushar Khot, Harsh Trivedi, Matthew Finlayson, Yao Fu, Kyle Richardson, Peter Clark, and Ashish Sabharwal.2022.分解提示：解决复杂任务的模块化方法。

娜塔莉-基斯勒和丹尼尔-席夫纳。2023.编程入门教育中的大型语言模型：Chatgpt的表现及其对评估的影响。arXiv预印本arXiv:2308.08572。

Hwichan Kim 和 Mamoru Komachi。2023.用目标语言的特殊示例加强少数几种语言的跨语言迁移》（Enhancing few-shot crosslingual transfer with target language peculiar examples.In Findings of the Association for Computational Linguistics：ACL 2023, pages 747767, Toronto, Canada.计算语言学协会。

Hyuhng Joon Kim, Hyunsoo Cho, Junyeob Kim, Taeuk Kim, Kang Min Yoo, and Sang goo Lee.2022.自生成语境学习：利用自回归语言模型作为示范生成器。

Sunkyoung Kim, Dayeon Ki, Yireun Kim, and Jinsik Lee.2023.通过语境学习提高多语言模型的跨语言可转移性》。

Dayoon Ko, Sangho Lee, and Gunhee Kim.2023a.语言模型能嘲笑优酷短视频吗？

Hyung-Kwon Ko、Gwanmo Park、Hyeon Jeon、Jaemin Jo、Juho Kim 和 Jinwook Seo。2023b.视觉艺术家创作作品的大规模文本到图像生成模型。第 28 届智能用户界面国际会议论文集》。

Tom Kocmi 和 Christian Federmann.2023a.Gembamqm：用 gpt-4 检测翻译质量错误跨度。arXiv 预印本 arXiv:2310.13988。

汤姆-科克米和克里斯蒂安-费德尔曼。2023b.大型语言模型是最先进的翻译质量评估工具。欧洲机器翻译协会第 24 届年会论文集》，第 193-203 页，芬兰坦佩雷。欧洲机器翻译协会。

Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa.2022.大语言模型是零射推理器。

Sawan Kumar 和 Partha Talukdar。2021.重新排序示例有助于基于引子的少量学习

Gihyun Kwon 和 Jong Chul Ye。2022.Clipstyler：用单一文本条件进行图像样式传输。

拉克拉2024.拉克拉警卫

Bar Lanyado、Ortal Keizman 和 Yair Divinsky。2023.你能相信 chatgpt 的软件包建议吗？火神网络博客。

Cindy Le, Congrui Hetang, Ang Cao, and Yihui He.2023.Euclidreamer：为具有稳定扩散深度的三维模型进行快速、高质量纹理绘制

Soochan Lee 和 Gunhee Kim。2023.思维递归：用语言模型进行多语境推理的分而治之法。

Alina Leidinger, Robert van Rooij, and Ekaterina Shutova.2023.提示语言：哪些语言特性使提示成功？

Brian Lester、Rami Al-Rfou 和 Noah Constant。2021.参数高效提示调整的规模力量。自然语言处理经验方法 2021 年会议论文集》。计算语言学协会。

Patrick Lewis、Ethan Perez、Aleksandra Piktus、Fabio Petroni、Vladimir Karpukhin、Naman Goyal、Heinrich Küttler、Mike Lewis、Wen tau Yih、Tim Rocktäschel、Sebastian Riedel 和 Douwe Kiela。2021.知识密集型NLP任务的检索增强生成。

Bowen Li, Xiaojuan Qi, Thomas Lukasiewicz, and Philip H. S. Torr.2019a.可控文本到图像生成。

Cheng Li, Jindong Wang, Yixuan Zhang, Kaijie Zhu, Wenxin Hou, Jianxun Lian, Fang Luo, Qiang Yang, and Xing Xie.2023a.大语言模型可理解情感刺激并可通过情感刺激增强。

Chengzhengxu Li, Xiaoming Liu, Yichen Wang, Duyi Li, Yu Lan, and Chao Shen.2023b.对话提示：基于策略梯度的离散提示优化，适用于少量学习

李家豪、谭浩、张凯、徐泽祥、栾福军、徐英豪、洪一聪、Kalyan Sunkavalli、Greg Shakhnarovich 和毕赛。2023c.Instant3d：使用稀疏视图生成和大型重构模型的快速文本到 3D 模型。

李明、周攀、刘家伟、Jussi Keppo、林敏、严水成和徐翔宇。2023d.Instant3d：文本到 3D 的即时生成。

Ruosen Li, Teerth Patel, and Xinya Du.2023e.Prd：同行排名和讨论改进基于大型语言模型的评估。arXiv 预印本 arXiv:2307.02762.

李文波、张鹏川、张磊、黄秋媛、何晓东、柳思维、高剑锋。2019b.通过对抗训练实现对象驱动的文本到图像合成。

Xiaonan Li, Kai Lv, Hang Yan, Tianyang Lin, Wei Zhu, Yuan Ni, Guotong Xie, Xiaoling Wang, and Xipeng Qiu.2023f.用于文本学习的统一演示检索器

Xiaonan Li 和 Xipeng Qiu.2023a.为情境学习寻找支持示例

Xiaonan Li 和 Xipeng Qiu.2023b.Mot：思维记忆让聊天工具自我完善

李小倩、聂二聪、梁胜。2023g.针对孟加拉语的跨语言检索增强型上下文学习。

李秀军、尹茜、李春元、张鹏川、胡晓伟、张磊、王丽娟、胡厚东、董丽、魏福如、崔业进、高剑锋。2020.奥斯卡奖：视觉语言任务的对象-语义对齐预训练。

Yaoyiran Li, Anna Korhonen, and Ivan Vulić.2023h 用大型语言模型归纳双语词典。

李一飞、林泽奇、张世卓、傅强、陈蓓、楼建光、陈伟柱。2023i.用步进感知验证器让语言模型成为更好的推理工具。第61届计算语言学协会年会论文集（第1卷：长篇论文）。计算语言学协会。

李英姬、杜梦楠、宋蕊、王昕、王颖。2023j.大型语言模型的公平性调查.

Jingyun Liang, Yuchen Fan, Kai Zhang, Radu Timofte, Luc Van Gool, and Rakesh Ranjan.2023.Movideo：利用扩散模型生成运动感知视频

Chen-Hsuan Lin, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, and Tsung-Yi Lin.2023.Magic3d：高分辨率文本到三维内容创建。

Xi Victoria Lin、Todor Mihaylov、Mikel Artetxe、Tianlu Wang、Suoohui Chen、Daniel Simig、Myle Ott、Naman Goyal、Shruti Bhosale、Jingfei Du、Ramakanth Pasunuru、Sam Shleifer、Punit Singh Koura、Vishrav Chaudhary、Brian O'Horo、Jeff Wang、Luke Zettlemoyer、Zornitsa Kozareva、Mona Diab、Veselin Stoyanov 和 Xian Li。2022.多语言生成语言模型的少量学习。自然语言处理实证方法 2022 年会议论文集》，第 9019-9052 页，阿联酋阿布扎比。计算语言学协会。

Yen-Ting Lin and Yun-Nung Chen.2023.Llm-eval：用大型语言模型对开放域对话进行统一的多维自动评估。arXiv 预印本 arXiv:2305.13711.

Jerry Liu.2022.LlamaIndex.

Jiachang Liu, Dinghan Shen, Yizhe Zhang, Bill Dolan, Lawrence Carin, and Weizhu Chen.2021.怎样才能为 GPT-3 提供好的上下文示例？深度学习架构的知识抽取与整合研讨会；深度学习内测。

Nelson F Liu, Tianyi Zhang, and Percy Liang.2023a.评估生成式搜索引擎的可验证性。自然语言处理经验方法 2023 年会议论文集》。

刘鹏飞、袁伟哲、付金兰、蒋正宝、林弘明和格雷厄姆-诺伊比格。2023b.预训练、提示和预测：自然语言处理中提示方法的系统调查。ACM Computing Surveys, 55(9):1-35.

Weihuang Liu, Xi Shen, Chi-Man Pun, and Xiaodong Cun.2023c.低级结构分割的显式视觉提示。In 2023 IEEE/CVF Confer ence on Computer Vision and Pattern Recognition

.IEEE.

Yang Liu, Dan Iter, Yichong Xu, Shuohang Wang, Ruochen Xu, and Chenguang Zhu.2023d.Gpteval：使用gpt-4进行Nlg评估，具有更好的人类配准。

Yihao Liu, Xiangyu Chen, Xianzheng Ma, Xintao Wang, Jiantao Zhou, Yu Qiao, and Chao Dong.2023e.图像处理与视觉提示问题解答的统一。

Yongkang Liu, Shi Feng, Daling Wang, Yifei Zhang, and Hinrich Schütze.2023f.评估你无法评估的东西：ArXiv preprint arXiv:2305.14658.

Yuxin Liu, Minshan Xie, Hanyuan Liu, and Tien-Tsin Wong.2023g.通过同步多视角扩散进行文字引导纹理绘制。

刘宇轩、杨天池、黄韶涵、张子涵、黄海珍、魏福如、邓薇薇、孙峰、张琦。2023h.ArXiv preprint arXiv:2309.13308.

Jieyi Long.2023.大语言模型引导的思想树

Jonathan Lorraine、Kevin Xie、Xiaohui Zeng、ChenHuan Lin、Towaki Takikawa、Nicholas Sharp、TsungYi Lin、Ming-Yu Liu、Sanja Fidler 和 James Lucas。2023.Att3d：摊销文本到三维物体合成。

Albert Lu、Hongxin Zhang、Yanzhe Zhang、Xuezhi Wang 和 Diyi Yang.2023a.在有提示约束的开放文本生成中限定大型语言模型的能力

Hongyuan Lu, Haoyang Huang, Dongdong Zhang, Haoran Yang, Wai Lam, and Furu Wei.2023b.大型语言模型中的词典链提示翻译。

Qingyu Lu, Baopu Qiu, Liang Ding, Liping Xie, and Dacheng Tao.2023c.错误分析提示在大型语言模型中实现类人翻译评估：arXiv preprint arXiv:2303.13809.

Yao Lu, Max Bartolo, Alastair Moore, Sebastian Riedel, and Pontus Stenetorp.2021.奇妙有序的提示语以及如何找到它们：克服少拍提示顺序敏感性。

Charles Duffy Luca Beurer-Kellner, Marc Fischer.2023 lmql。GitHub 存储库。

罗哲恒、谢倩倩、索菲亚-阿纳尼阿杜。2023.Chatgpt作为抽象文本摘要的事实不一致性评价器。arXiv预印本arXiv:2303.15621.

吕家喜、黄毅、严明富、黄建成、刘建庄、刘一帆、温亚非、陈晓新、陈世峰。2023.Gpt4motion：通过面向 Blender 的 Gpt 规划在文本到视频生成中编写物理运动脚本。

Qing Lyu, Shreya Havaldar, Adam Stein, Li Zhang, Delip Rao, Eric Wong, Marianna Apidianaki, and Chris Callison-Burch.2023.忠实的思维链推理。

马欢、张常青、卞亚涛、刘乐茂、张志瑞、赵培林、张姝、付华柱、胡庆华和吴秉哲。2023.大型语言模型的公平性引导的少量提示（Fairnessguided few-shot prompting for large language models）. arXiv preprint arXiv:2303.13217.

阿曼-马丹、尼基特-坦登、普拉卡尔-古普塔、斯凯勒-哈里南、高鲁豫、萨拉-维格瑞夫、乌里-阿隆、努哈-德兹里、什里迈-普拉布莫耶、杨一鸣、

Shashank Gupta、Bodhisattwa Prasad Majumder、Katherine Hermann、Sean Welleck、Amir Yazdanbakhsh 和 Peter Clark。2023.自我提炼：自我反馈的迭代改进。

Ninareh Mehrabi、Fred Morstatter、Nripsuta Saxena、Kristina Lerman 和 Aram Galstyan。2021.机器学习中的偏见与公平性调查。ACM 计算调查（CSUR），54（6）：1-35。

劳拉-梅尔泽、托马斯-福克曼、托比亚斯-泰斯曼。2024.自杀危机综合征：系统回顾。自杀与危及生命行为》。2月27日，在线提前印刷。

孟凡旭、杨浩彤、王一丁和张慕涵。2023.用于直观推理的图像链

B.Meskó.2023.及时工程是医疗专业人员的一项重要新兴技能：教程.Journal of Medical Internet Research, 25(Suppl 1):e50638.

米亚春、李瑜、舒艳、陈慧、周普超和刘少辉。2023.Clif-vqa：通过纳入与人类感受相关的高级语义信息来增强视频质量评估。

Grégoire Mialon、Roberto Dessì、Maria Lomeli、Christoforos Nalmpantis、Ram Pasunuru、Roberta Raileanu、Baptiste Rozière、Timo Schick、Jane Dwivedi-Yu、Asli Celikyilmaz、Edouard Grave、Yann LeCun 和 Thomas Scialom。2023.增强语言模型：一项调查。

Sewon Min、Xinxi Lyu、Ari Holtzman、Mikel Artetxe、Mike Lewis、Hannaneh Hajishirzi 和 Luke Zettlemoyer。2022.反思演示的作用：是什么让情境学习发挥作用？

Sewon Min、Julian Michael、Hannaneh Hajishirzi 和 Luke Zettlemoyer。2020.Ambigqa：ArXiv preprint arXiv:2004.10645.

R.A. Morelli, J.D. Bronzino, and J.W. Goethe.1991.人机对话的计算语音行为模型。In Proceedings of the 1991 IEEE Seventeenth Annual Northeast Bioengineering Conference, pages 263-264.

Yasmin Moslem、Rejwanul Haque、John D. Kelleher 和 Andy Way。2023.使用大型语言模型的自适应机器翻译。欧洲机器翻译协会第 24 届年会论文集》，第 227-237 页，芬兰坦佩雷。欧洲机器翻译协会。

穆方文、石林、王松、于卓浩、张斌权、王晨雪、刘世超和王青。2023.Clarifygpt：基于意图澄清的 1lm 代码生成。

Niklas Muennighoff、Thomas Wang、Lintang Sutawika、Adam Roberts、Stella Biderman、Teven Le Scao、M Saiful Bari、Sheng Shen、Zheng Xin Yong、Hailey Schoelkopf、Xiangru Tang、Dragomir Radev、Alham Fikri Aji、Khalid Almubarak、Samuel Albanie、Zaid Alyafeai、Albert Webson、Edward Raff 和 Colin Raffel。2023.通过多任务微调实现跨语言泛化。In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 15991-16111, Toronto, Canada.计算语言学协会。

Akshay Nambi、Vaibhav Balloli、Mercy Ranjit、Tanuja Ganu、Kabir Ahuja、Sunayana Sitaram 和 Kalika Bali。2023.用跳跃打破语言障碍：多语言学习策略llms.

Milad Nasr, Nicholas Carlini, Jonathan Hayase, Matthew Jagielski, A. Feder Cooper, Daphne Ippolito, Christopher A. Choquette-Choo, Eric Wallace, Florian Tramèr, and Katherine Lee.2023.从（生产）语言模型中可扩展地提取训练数据。

国家卫生劳动力分析中心。2023 年行为健康劳动力，2023 年。

亚历山德拉-尼古2023.如何在计算机科学教育中利用大型语言模型和提示工程？系统文献综述.代尔夫特理工大学硕士论文，6 .

聂尔聪、梁胜、Helmut Schmid 和 Hinrich Schütze.2023.低资源语言的跨语言检索增强提示。In Findings of the Association for Computational Linguistics：ACL 2023，第 8320-8340 页，加拿大多伦多。计算语言学协会。

宁雪飞、林紫楠、周子萱、王自富、杨华中和王宇。2023.思维骨架：大型语言模型可进行并行解码

OpenAI.2023.OpenAI 助手。

乔纳斯-奥本兰德2023.文本到图像生成的提示修改器分类法

安东-奥西卡2023. GPT-engineer.

Matthew J Page, Joanne E McKenzie, Patrick M Bossuyt, Isabelle Boutron, Tammy C Hoffmann, Cynthia D Mulrow, Larissa Shamseer, Jennifer M Tetzlaff, Elie A Akl, Sue E Brennan, Roger Chou, Julie Glanville, Jeremy M Grimshaw、Asbjørn Hróbjartsson、Manoj M Lalu、Tianjing Li、Elizabeth W Loder、Evan Mayo-Wilson、Steve McDonald、Luke A McGuinness、Lesley A Stewart、James Thomas、Andrea C Tricco、Vivian A Welch、Penny Whiting 和 David Moher。2021.2020 年棱镜声明：系统综述报告更新指南》。BMJ, 372 .

Ehsan Pajouheshgar, Yitao Xu, Alexander Mordvintsev, Eyvind Niklasson, Tong Zhang, and Sabine Süsstrunk.2023.网状神经细胞自动机

Pruthvi Patel、Swaroop Mishra、Mihir Parmar 和 Chitta Baral。2022.我们只需要一个问题分解单元吗？

Shishir G. Patil、Tianjun Zhang、Xin Wang 和 Joseph E. Gonzalez。2023.大猩猩：大语言模型与大规模 apis 的连接。ArXiv, abs/2305.15334

Hammond Pearce, Baleegh Ahmad, Benjamin Tan, Brendan Dolan-Gavitt, and Ramesh Karri.2021.在键盘前睡着了？评估 Github 副驾驶员代码贡献的安全性》（Asleep at the keyboard?

Hammond Pearce、Benjamin Tan、Baleegh Ahmad、Ramesh Karri 和 Brendan Dolan-Gavitt。2022.用大型语言模型检验零点漏洞修复。

Puyuan Peng, Brian Yan, Shinji Watanabe, and David Harwath.2023.激发网络尺度语音模型的隐藏才能，实现零点任务泛化。

Ethan Perez、Saffron Huang、Francis Song、Trevor Cai、Roman Ring、John Aslanides、Amelia Glaese、Nat McAleese 和 Geoffrey Irving。2022.红队语言模型与语言模型。

法比奥-佩雷斯和伊恩-里贝罗2022.忽略先前提示：语言模型的攻击技术

Neil Perry、Megha Srivastava、Deepak Kumar 和 Dan Boneh。2022.用户使用人工智能助手会写出更多不安全代码吗？

Denis Peskoff 和 Brandon M Stewart。2023.可信而无信用：领域专家评估生成语言模型》。第 61 届计算语言学协会年会论文集》（第 2 卷：短篇论文），第 427-438 页。

Denis Peskoff、Adam Visokay、Sander Schulhoff、Benjamin Wachspress、Alan Blinder 和 Brandon M Stewart。2023.Gpt deciphering fedspeak：量化鹰派和鸽派之间的异议。In Findings of the Association for Computational Linguistics.EMNLP 2023，第 6529-6539 页。

丹尼斯-佩斯科夫、维克托-汉尼亚、乔丹-博伊德-格拉伯和亚历山大-弗雷泽。2021.跨语言和文化的实体适应。计算语言学协会的研究成果：EMNLP 2021。

Fabio Petroni、Tim Rocktäschel、Sebastian Riedel、Patrick Lewis、Anton Bakhtin、Yuxiang Wu 和 Alexander Miller。2019.作为知识库的语言模型？2019年自然语言处理实证方法会议暨第九届自然语言处理国际联合会议（EMNLP-IJCNLP）论文集。

Pouya Pezeshkpour 和 Estevam Hruschka。2023.大语言模型对多选题中选项顺序的敏感性. arXiv预印本arXiv:2308.11483.

Carol W. Pfaff.1979.语言混合的制约因素：西班牙/英语中的句内代码转换和借用。Language, pages 291-318.

Jonathan Pilault、Xavier Garcia、Arthur Bražinskas、Orhan Firat。2023.交互链提示：交互式跨语言条件生成的歧义解决。

Ben Poole, Ajay Jain, Jonathan T. Barron, and Ben Mildenhall.2022.梦幻融合：使用 2d 扩散将文本转换为 3d。

莎娜-波普拉克1980.有时我用西班牙语开头，有时我用西班牙语结尾：Toward a typology of code-switching.语言学》，18（7-8）：581-618。

Archiki Prasad、Peter Hase、Xiang Zhou 和 Mohit Bansal。2023.GrIPS：用于提示大型语言模型的无梯度、基于编辑的指令搜索。第 17 届计算语言学协会欧洲分会会议论文集》，第 3845-3864 页，克罗地亚杜布罗夫尼克。计算语言学协会。

序言。2024.我们的产品

Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah A. Smith, and Mike Lewis.2022.测量和缩小语言模型的构成性差距

Reid Pryzant, Dan Iter, Jerry Li, Yin Tat Lee, Chenguang Zhu, and Michael Zeng.2023.利用 "梯度下降 "和波束搜索进行自动提示优化

Ratish Puduppully、Anoop Kunchukuttan、Raj Dabre、Ai Ti Aw 和 Nancy F. Chen。2023.使用大型语言模型在相关语言之间进行机器翻译的分解提示。

乔波、李利群、张旭、何士林、康昱、张超云、杨方凯、董航、张珏、王璐、马明杰、赵璞、秦思、秦晓婷、杜超、徐勇、林庆伟、S. Rajmohan 和张冬梅。2023.Taskweaver：代码优先的代理框架。ArXiv, abs/2311.17541.

乔朔飞、欧一心、张宁宇、陈翔、姚云志、邓淑敏、谭传奇、黄飞、陈华军。2022.语言模型提示推理：一项调查。

秦立波、陈启光、魏福轩、黄世觉、车万祥。2023a.跨语言提示：改进跨语言的零点思维链推理。

秦雨佳、胡圣鼎、林彦凯、陈伟泽、丁宁、崔干渠、曾振妮、黄宇飞、肖超俊、韩驰、冯毅人、苏玉生、王华东、钱程、田润初、朱昆仑、梁石、沈星宇、徐博凯、张震、叶一宁、李波、唐紫薇、易静、朱宇、戴振宁、严岚、丛昕、陆雅婷、赵伟林、黄宇翔、严俊瀚、韩旭、孙娴、李大海、庞杰、杨成、吴同双、季恒、刘志远、孙茂松。2023b.使用基础模型的工具学习。ArXiv，abs/2304.08354。

Alec Radford、Jong Wook Kim、Chris Hallacy、Aditya Ramesh、Gabriel Goh、Sandhini Agarwal、Girish Sastry、Amanda Askell、Pamela Mishkin、Jack Clark 等，2021 年。从自然语言监督中学习可转移的视觉模型。机器学习国际会议，第 8748-8763 页。PMLR。

Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al. 2019a.语言模型是无监督的多任务学习者。OpenAI blog, 1(8):9.

Alec Radford、Jeffrey Wu、Rewon Child、David Luan、Dario Amodei、Ilya Sutskever 等 2019b。语言模型是无监督的多任务学习者。OpenAI blog, 1(8):9.

Sudha Rao 和 Hal Daumé III.2019.基于答案的对抗训练生成澄清问题。arXiv 预印本 arXiv:1904.02281.

Traian Rebedea、Razvan Dinu、Makesh Sreedhar、Christopher Parisien 和 Jonathan Cohen。2023 尼莫护栏：利用可编程导轨实现可控安全llm 应用的工具包。arXiv.

Philip Resnik、April Foreman、Michelle Kuchuk、Katherine Musacchio Schafer 和 Beau Pinkham。2021.将自然语言作为预防自杀的证据来源》（Naturally occurring language as a source of evidence in suicide prevention.自杀与威胁生命行为》，51（1）：88-96。

Laria Reynolds 和 Kyle McDonell。2021.大型语言模型的提示编程：Beyond the few-shot paradigm.In Extended Abstracts of the 2021 CHI Conference on Human Factors in Computing Systems, CHI '21.ACM.

Megan L Rogers, Carol Chu, and Thomas Joiner.2019.新诊断实体的必要性、有效性和临床实用性：急性自杀性情感障碍（asad）。临床心理学杂志》，75（6）：999。

Robin Rombach、Andreas Blattmann、Dominik Lorenz、Patrick Esser 和 Björn Ommer。2022.利用潜在扩散模型的高分辨率图像合成。

Ohad Rubin, Jonathan Herzig, and Jonathan Berant.2022.学习检索提示，实现语境学习。计算语言学协会北美分会2022年会议论文集：人类语言技术。计算语言学协会。

跑道。2023.Gen-2提示提示。https：//help.runwayml.com/hc/en-us/articles/ 17329337959699-Gen-2-Prompt-Tips。

Pranab Sahoo、Ayush Kumar Singh、Sriparna Saha、Vinija Jain、Samrat Mondal 和 Aman Chadha。2024.大型语言模型中的提示工程系统调查：技术与应用》。

Gustavo Sandoval、Hammond Pearce、Teo Nys、Ramesh Karri、Siddharth Garg 和 Brendan Dolan-Gavitt。2022.Lost at c：关于大型语言模型代码助手安全影响的用户研究。

Shubhra Kanti Karmaker Santu 和 Dongji Feng。2023.Teler：用于复杂任务基准测试的llm 提示通用分类法。

Timo Schick、Jane Dwivedi-Yu、Roberto Dessì、Roberta Raileanu、Maria Lomeli、Luke Zettlemoyer、Nicola Cancedda 和 Thomas Scialom。2023.Toolformer 语言模型可以自学使用工具。

Timo Schick 和 Hinrich Schütze.2020a.利用掐头去尾问题进行少量文本分类和自然语言推理。计算语言学协会欧洲分会会议。

Timo Schick 和 Hinrich Schütze.2020b.重要的不仅仅是大小：小语言模型也是少数学习者。ArXiv, abs/2009.07118.

Timo Schick 和 Hinrich Schütze.2021.利用掐头去尾问题进行少量文本分类和自然语言推理。第 16 届计算语言学协会欧洲分会会议论文集：主卷。计算语言学协会。

Douglas C. Schmidt、Jesse Spencer-Smith、Quchen Fu 和 Jules White。2023.编目提示模式以加强提示工程学科。范德堡大学计算机科学系。电子邮件：douglas.c.schmidt、jesse.spencer-smith、quchen.fu、jules.white@vanderbilt.edu。

Allison Schuck, Raffaella Calati, Shira Barzilay, Sarah Bloch-Elkouby, and Igor I. Galynker.2019a.自杀危机综合征：自杀危机综合征：一种新的自杀特异性诊断的支持证据回顾。行为科学与法律，37 3:223-239.

Allison Schuck、Raffaella Calati、Shira Barzilay、Sarah Bloch-Elkouby 和 Igor Galynker。2019b.自杀危机综合征：自杀危机综合征：一种新的自杀特异性诊断的佐证综述》。行为科学与法律》，37（3）：223-239。

桑德-舒尔霍夫2022.学习提示。

桑德-舒尔霍夫、杰里米-平托、阿纳姆-汗、路易-弗朗索瓦-布沙尔、司成磊、斯韦特琳娜-阿纳蒂、瓦伦-塔利亚布、安森-科斯特、克里斯托弗-卡纳汉和乔丹-博伊德-格拉伯。2023.忽略此标题和 HackAPrompt：通过全球黑客大赛揭露LLMs 的系统漏洞。自然语言处理实证方法 2023 年会议论文集》，第 4945-4977 页，新加坡。计算语言学协会。

桑德-V-舒尔霍夫2024.即时注入与越狱：有什么区别？

Melanie Sclar, Yejin Choi, Yulia Tsvetkov, and Alane Suhr.2023a.量化语言模型在提示设计中对虚假特征的敏感性或：我是如何学会开始担心提示格式的》。ArXiv 预印本 arXiv:2310.11324.

Melanie Sclar、Yejin Choi、Yulia Tsvetkov 和 Alane Suhr。2023b.量化语言模型对提示设计中虚假特征的敏感性或：我是如何学会开始担心提示格式的？

Harsha-Nori Scott Lundberg、Marco Tulio Correia Ribeiro。指导。GitHub 存储库。

John R. Searle.1969.Speech Acts：语言哲学论文集》。剑桥大学出版社。

Omar Shaikh、Hongxin Zhang、William Held、Michael Bernstein 和 Diyi Yang。2023.转念一想，还是不要一步步来吧！zeroshot推理中的偏见和毒性。

Mrinank Sharma, Meg Tong, Tomasz Korbak, David Duvenaud, Amanda Askell, Samuel R Bowman, Newton Cheng, Esin Durmus, Zac Hatfield-Dodds, Scott R Johnston, et al.在语言模型中理解佞好。arXiv 预印本 arXiv:2310.13548.

沈永亮、宋开涛、谭旭、李东升、卢伟明、庄月婷。2023.Hugginggpt：用chatgpt和它的朋友们以拥抱的面孔解决人工智能任务。ArXiv, abs/2303.17580.

Freda Shi、Mirac Suzgun、Markus Freitag、Xuezhi Wang、Suraj Srivats、Soroush Vosoughi、Hyung Won Chung、Yi Tay、Sebastian Ruder、Denny Zhou、Dipanjan Das 和 Jason Wei。2022.语言模型是多语言思维链推理器。

Taylor Shin、Yasaman Razeghi、Robert L Logan IV、Eric Wallace 和 Sameer Singh。2020a.使用自动生成的提示从语言模型中获取知识。ArXiv, abs/2010.15980.

Taylor Shin、Yasaman Razeghi、Robert L. Logan IV、Eric Wallace 和 Sameer Singh。2020b.自动提示：通过自动生成的提示从语言模型中获取知识。2020 年自然语言处理实证方法大会（EMNLP）论文集。

Han-Chin Shing, Suraj Nair, Ayah Zirikly, Meir Friedenberg, Hal Daumé III, and Philip Resnik.2018.通过在线发帖进行自杀风险的专家、众包和机器评估。第五届计算语言学与临床研讨会论文集》。

心理学：从键盘到诊所》（From Keyboard to Clinic），第 25-36 页，洛杉矶新奥尔良。计算语言学协会。

Noah Shinn, Federico Cassano, Edward Berman, Ashwin Gopinath, Karthik Narasimhan, and Shunyu Yao.2023.反思：具有语言强化学习功能的语言代理。

司成雷、丹-弗里德曼、尼蒂什-乔希、石峰、陈丹琪、何和。2023a.利用未指定演示测量语境中学习的归纳偏差。在计算语言学协会（ACL）。

司成雷、甘喆、杨正源、王硕航、王剑锋、乔丹-博伊德-格拉伯和王丽娟。2023b.促使 gpt-3 变得可靠。国际学习表征会议（ICLR）。

司成雷、Navita Goyal、Sherry Tongshuang Wu、Chen Zhao、Shi Feng、Hal Daumé III 和 Jordan Boyd-Graber。2023c.大型语言模型帮助人类验证真实性--除非它们错得令人信服。arXiv预印本arXiv:2310.12558.

司成雷、史伟佳、赵晨、卢克-泽特勒莫耶和乔丹-李-博伊德-格拉伯。2023d.从混合语言模型

中获取 MoRE。自然语言处理中的经验方法研究成果》。

Suzanna Sia 和 Kevin Duh。2023.保持一致性的上下文学习：使用大型语言模型的即时机器翻译研究

重大意义。2023.AutoGPT.

Uriel Singer、Shelly Sheynin、Adam Polyak、Oron Ashual、Iurii Makarov、Filippos Kokkinos、Naman Goyal、Andrea Vedaldi、Devi Parikh、Justin Johnson 和 Yaniv Taigman。2023.文本到 4d 动态场景生成。

Taylor Sorensen、Joshua Robinson、Christopher Rytting、Alexander Shaw、Kyle Rogers、Alexia Delorey、Mahmoud Khalil、Nancy Fulda 和 David Wingate。2022.无地面实况标签的提示工程信息论方法。In Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 819-862, Dublin, Ireland.计算语言学协会。

Andrea Sottana, Bin Liang, Kai Zou, and Zheng Yuan.2023.GPT-4时代的评估指标：在序列到序列任务上可靠地评估大型语言模型。arXiv预印本arXiv:2310.13800

Michal Štefánik 和 Marek Kadlčík.2023.无语境学习者能否从演示中学习推理概念？第一届自然语言推理与结构化解释（NLRSE）研讨会论文集》，第 107-115 页，加拿大多伦多。计算语言学协会。

Hongjin Su, Jungo Kasai, Chen Henry Wu, Weijia Shi, Tianlu Wang, Jiayi Xin, Rui Zhang, Mari Ostendorf, Luke Zettlemoyer, Noah A. Smith, and Tao Yu.2022.选择性注释使语言模型成为更好的少数学习者。

Lv Tang, Peng-Tao Jiang, Hao-Ke Xiao, and Bo Li.2023.通过图像提示基础模型实现免训练开放世界分割。

Eshaan Tanwar, Subhabrata Dutta, Manish Borthakur, and Tanmoy Chakraborty.2023.多语言LLMs 是更好的跨语言上下文对齐学习者。第 61 届计算语言学协会年会论文集》（第 1 卷：长篇论文），第 6292-6307 页，加拿大多伦多。计算语言学协会。

Ming Tao, Hao Tang, Fei Wu, Xiao-Yuan Jing, BingKun Bao, and Changsheng Xu.2022.Df-gan：简单有效的文本到图像合成基线。

夏洛特-汤普森（Charlotte Thompson）和蒂安娜-凯利（Tiana Kelly）。2023.当幻觉成为现实：探索艾包幻觉攻击。Darktrace 博客。

Katherine Tian、Eric Mitchell、Allan Zhou、Archit Sharma、Rafael Rafailov、Huaxiu Yao、Chelsea Finn 和 Christopher Manning。2023.只需校准：从根据人类反馈微调的语言模型中获取校准置信度分数的策略。自然语言处理实证方法 2023 年会议论文集》，第 5433-5442 页，新加坡。计算语言学协会。

Mark Towers、Jordan K. Terry、Ariel Kwiatkowski、John U. Balis、Gianluca de Cola、Tristan Deleu、Manuel Goulão、Andreas Kallinteris、Arjun KG、Markus Krimmel、Rodrigo Perez-Vicente、Andrea Pierré、Sander Schulhoff、Jun Jet Tai、Andrew Tan Jin Shen 和 Omar G. Younis。2023.体育馆。

Harsh Trivedi、Niranjan Balasubramanian、Tushar Khot 和 Ashish Sabharwal。2023.针对知识密集型多步骤问题的思维链推理交错检索。第 61 届计算语言学协会年会论文集》（第 1 卷：长篇论文），第 10014-10037 页，加拿大多伦多。计算语言学协会。

Rasul Tutunov, Antoine Grosnit, Juliusz Ziomek, Jun Wang, and Haitham Bou-Ammar.2023.大型语言模型为何能生成正确的思维链？

埃里克-华莱士、石峰、尼基尔-坎德帕尔、马特-加德纳和萨米尔-辛格。2019.用于攻击和分析 NLP 的通用对抗触发器。自然语言处理实证方法会议。

Xingchen Wan, Roxi Sun, Hanjun Dai, Sercan O. Arik, and Tomas Pfister.2023a.利用自适应提示实现更好的零点推理。

万星辰、孙若曦、Hootan Nakhost、戴汉军、Julian Martin Eisenschlos、Sercan O. Arik 和 Tomas Pfister。2023b.通用自适应提示。

Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, and Anima Anandkumar.2023a.旅行者：具有大型语言模型的开放式嵌入式代理。

王家安、梁云龙、孟凡东、史浩翔、李志旭、徐纪南、曲剑锋和周杰。2023b.ArXiv预印本arXiv:2303.04048.

王佳琪、刘正良、赵琳、吴子豪、马冲、于思刚、戴海星、杨秋实、刘以恒、张松尧、史恩泽、潘毅、张拓、朱大江、李翔、蒋曦、葛宝、袁怡萱、沈定刚、刘天明、张姝。2023c.大型视觉模型和视觉提示工程综述。

王佳琪、史恩泽、于思刚、吴子豪、马冲、戴海星、杨秋实、康艳清、吴金如、胡华文、岳晨曦、张海洋、刘以恒、李翔、葛宝、朱大江、袁一轩、沈定刚、刘天明、张姝。2023d.医疗保健的及时工程：方法与应用。

王俊杰、黄玉超、陈春阳、刘哲、王松、王青。2023e.使用大型语言模型的软件测试：调查、展望和愿景.

王磊、徐婉瑜、蓝奕怀、胡志强、蓝允诗、李嘉伟和林奕鹏。2023f.计划-解决-提示：通过大型语言模型改进零点思维链推理。

Siyin Wang, Chao-Han Huck Yang, Ji Wu, and Chao Zhang.2023g.耳语能否进行基于语音的语境学习？

王心怡、朱万荣、迈克尔-萨克森、马克-斯泰弗斯和王威廉-杨。2023h.大语言模型是潜变量模型：解释和寻找语境学习的良好示范。

Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou.2022.自洽性改善语言模型的思维链推理》。

王亚青、蒋洁璞、张明阳、李成、梁毅、梅巧珠、迈克尔-本德斯基。2023i.使用大型语言模型自动评估个性化文本生成。arXiv 预印本 arXiv:2310.11593.

Yaqing Wang, Quanming Yao, James Kwok, and Lionel M. Ni.2019.从少量实例中归纳：关于少量学习的调查。

王泽坤、彭中原、阙浩然、刘家恒、周望春树、吴雨涵、郭洪成、甘瑞彤、倪泽浩、张曼、张兆祥、欧阳万里、徐珂、陈文虎、傅杰、彭俊然。2023j Rolellm：对大型语言模型的角色扮演能力进行基准测试、激发和增强。

王振东、江一帆、陆亚东、沈业龙、何鹏程、陈伟柱、王占阳、周明远。2023k.扩散模型的上下文学习解锁。

王振海龙、毛绍光、吴文山、葛涛、魏福如、季恒。20231.大型语言模型中的认知协同：通过多角色自我协作的任务解决代理。

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, and Denny Zhou.2022.大型语言模型中的思维链提示推理。

Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed Chi, Quoc Le, and Denny Zhou.2023a.大型语言模型中的思维链提示推理。

Jerry Wei、Da Huang、Yifeng Lu、Denny Zhou 和 Quoc V Le。2023b.简单合成数据减少大型语言模型中的佞人现象。arXiv预印本arXiv:2308.03958。

Jerry Wei, Jason Wei, Yi Tay, Dustin Tran, Albert Webson, Yifeng Lu, Xinyun Chen, Hanxiao Liu, Da Huang, Denny Zhou, et al.大型语言模型在上下文学习中的不同表现。arXiv 预印本 arXiv:2303.03846.

翁一萱、朱敏君、夏飞、李斌、何世柱、刘胜平、孙斌、刘康、赵俊。2022.大语言模型是更好的自我验证推理者

Jason Weston 和 Sainbayar Sukhbaatar。2023.系统 2 注意事项（您可能也需要）。

朱尔斯-怀特、傅求琛、萨姆-海斯、迈克尔-桑伯恩、卡洛斯-奥莱亚、亨利-吉尔伯特、阿什拉夫-埃尔纳沙尔、杰西-斯宾塞-史密斯和道格拉斯-C-施密特。2023.使用 chatgpt 增强提示工程的提示模式目录。

Alex Wilf, Sihyun Shawn Lee, Paul Pu Liang, and LouisPhilippe Morency.2023.三思：透视法提高了大型语言模型的心智理论能力。

西蒙-威利森2022.针对gpt-3的提示注入攻击。

西蒙-威利森2024.即时注入和越狱不是一回事。

Genta Indra Winata、Liang-Kang Huang、Soumya Vadlamannati 和 Yash Chandarana。2023.通过语言模型检索进行多语言少量学习

Jay Zhangjie Wu, Yixiao Ge, Xintao Wang, Weixian Lei, Yuchao Gu, Yufei Shi, Wynne Hsu, Ying Shan, Xiaohu Qie, and Mike Zheng Shou.2023a.Tune-avideo：用于文本到视频生成的图像扩散模型的一次性调整。

吴宁、龚明、寿林军、梁世宁和蒋大新。2023b.大语言模型是摘要评估的多样化角色扮演者. arXiv preprint arXiv:2303.15078.

吴同双、Michael Terry 和 Carrie Jun Cai 2022.爱链：通过连锁大型语言模型提示实现透明可控的人机交互。CHI计算系统中的人为因素大会。

Xiaodong Wu, Ran Duan, and Jianbing Ni.2023c.揭示聊天软件的安全、隐私和伦理问题。信息与智能》杂志。

Xia Congying、Chen Xing、Jiangshu Du、Xinyi Yang、Yiihao Feng、Ran Xu、Wenpeng Yin 和 Caiming Xiong。2024.Fofo：评估llms 格式跟踪能力的基准。

Miao Xiong, Zhiyuan Hu, Xinyang Lu, Yifei Li, Jie Fu, Junxian He, and Bryan Hooi.2023a.llms 能表达他们的不确定性吗？对llms 中信心激发的实证评估。arXiv 预印本 arXiv:2306.13063.

Miao Xiong, Zhiyuan Hu, Xinyang Lu, Yifei Li, Jie Fu, Junxian He, and Bryan Hooi.2023b.llms 能表达他们的不确定性吗？对llms 中信心激发的实证评估。arXiv 预印本 arXiv:2306.13063.

Xiaohan Xu, Chongyang Tao, Tao Shen, Can Xu, Hongbo Xu, Guodong Long, and Jian guang Lou.2023.重读提高了语言模型的推理能力

薛天赐、王紫琪、王振海龙、韩驰、于鹏飞、季恒。2023.Rcot：通过逆转思维链检测和纠正推理中的事实不一致。

杨成润、王学智、吕一峰、刘汉孝、Quoc V. Le、周丹妮和陈新云。2023a.作为优化器的大型语言模型。

杨海波、陈扬、潘英伟、姚婷、陈志能和梅涛。2023b.3dstyle-diffusion：用二维扩散模型追求细粒度文本驱动的三维风格化

Hui Yang，Sifu Yue，and Yunzhong He.2023c.用于在线决策的 Autogpt：基准和补充意见。

Xinyi Yang, Runzhe Zhan, Derek F. Wong, Junchao

, and Lidia S. Chao.2023d.使用大型语言模型的人在环机器翻译。在第十九届机器翻译峰会论文集第 2 卷：用户方向，第 88-98 页，中国澳门特别行政区。机器翻译峰会。

杨正元、李林杰、林凯文、王剑锋、林忠清、刘自成和王丽娟。2023e.lmms的曙光：gpt-4v(ision)的初步探索。ArXiv, abs/2309.17421.

姚斌伟、蒋明、杨迪一和胡俊杰。2023a.让基于llm 的机器翻译具备文化意识。

姚舜宇、于滇、赵杰夫、Izhak Shafran、Thomas L. Griffiths、曹元和 Karthik Narasimhan。2023b.思想之树：用大型语言模型故意解决问题。

Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao.2022.反应：语言模型中推理与行动的协同。

姚瑶、李祖超、赵海。2023c.超越思维链，大型语言模型中的有效思维图推理。

Michihiro Yasunaga、Xinyun Chen、Yujia Li、Panupong Pasupat、Jure Leskovec、Percy Liang、Ed H. Chi 和 Denny Zhou。2023.作为类比推理器的大型语言模型。

叶沁源、Maxamed Axmed、Reid Pryzant 和 Fereshte Khani。2023.及时的工程，及时的工程师。

Xi Ye 和 Greg Durrett。2023.使用无标签数据进行思维链提示的解释选择。

Kang Min Yoo, Junyeob Kim, Hyuhng Joon Kim, Hyunsoo Cho, Hwiyeol Jo, Sang-Woo Lee, Sang goo Lee, and Taeuk Kim.2022.地面实况标签很重要：对输入标签演示的深入研究。

Ori Yoran、Tomer Wolfson、Ben Bogin、Uri Katz、Daniel Deutch 和 Jonathan Berant。2023.通过多思维链的元推理回答问题。

阿迪尔-尤萨夫、穆扎玛尔-纳赛尔、萨尔曼-汗、法哈德-沙巴兹-汗和穆巴拉克-沙阿。2023.Videoprompter：零镜头视频理解的基础模型集合。

Yue Yu、Yuchen Zhuang、Jieyu Zhang、Yu Meng、Alexander Ratner、Ranjay Krishna、Jiaming Shen 和 Chao Zhang。2023.作为训练数据生成器的大语言模型：arXiv preprint arXiv:2306.15895.

Xiang Yue, Boshi Wang, Kai Zhang, Ziru Chen, Yu Su, and Huan Sun.2023.大型语言模型的归因自动评估。arXiv preprint arXiv:2305.06311.

曾志远、于嘉彤、高天宇、孟瑜、Tanya Goyal 和陈丹琪。2023.评估指令跟随的大型语言模型。arXiv 预印本 arXiv:2310.07641.

Michael JQ Zhang 和 Eunsol Choi。2023.必要时澄清：ArXiv preprint arXiv:2311.09469.

Quanjun Zhang, Tongke Zhang, Juan Zhai, Chunrong Fang, Bowen Yu, Weisong Sun, and Zhenyu Chen.2023a.软件工程大型语言模型评述：以chatgpt和自动程序修复为例.

Yifan Zhang, Jingqin Yang, Yang Yuan, and Andrew Chi-Chih Yao.2023b.大型语言模型的累积推理。

Yiming Zhang, Shi Feng, and Chenhao Tan.2022a.情境学习的主动示例选择

张卓生、姚瑶、张阿斯顿、唐相如、马新北、何志伟、王一鸣、马克-格斯坦、王瑞、刘功深和赵海。2023c.点燃语言智能：从思维链推理到语言代理的搭便车指南。

Zhuosheng Zhang, Aston Zhang, Mu Li, and Alex Smola.2022b.大型语言模型中的自动思维链提示。

Zhuosheng Zhang, Aston Zhang, Mu Li, Hai Zhao, George Karypis, and Alex Smola.2023d.语言模型中的多模态思维链推理。

赵若晨、李星璇、沙菲克-乔蒂、秦成伟、宾立东。2023a.验证与编辑：知识增强的思维链框架。In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 5823-5840, Toronto, Canada.计算语言学协会。

Tony Z. Zhao, Eric Wallace, Shi Feng, Dan Klein, and Sameer Singh.2021a.先校准后使用：提高语言模型的少拍性能。

赵一伦、张浩伟、司胜云、南林勇、唐相如和阿曼-科汉。2023b.大型语言模型是有效的表对文生成器、评估器和反馈提供者。arXiv预印本arXiv:2305.14987.

Yuyang Zhao, Zhiwen Yan, Enze Xie, Lanqing Hong, Zhenguo Li, and Gim Hee Lee.2023c.Animate124：将一幅图像动画化为

动态场景。

Zihao Zhao, Eric Wallace, Shi Feng, Dan Klein, and Sameer Singh.2021b.先校准后使用：提高语言模型的少拍性能在国际机器学习大会上，第 12697-12706 页。PMLR.

Chujie Zheng, Hao Zhou, Fandong Meng, Jie Zhou, and Minlie Huang.2023a.论多选问题中大语言模型的选择偏差. arXiv预印本arXiv:2309.03882.

Ge Zheng, Bin Yang, Jiajin Tang, Hong-Yu Zhou, and Sibei Yang.2023b.Ddcot：语言模型中多模态推理的职责区分思维链提示。

Huaixiu Steven Zheng, Swaroop Mishra, Xinyun Chen, Heng-Tze Cheng, Ed H. Chi, Quoc V Le, and Denny Zhou.2023c.退一步：在大型语言模型中通过抽象唤起推理。

Mingqian Zheng, Jiaxin Pei, and David Jurgens.2023d.系统提示中社会角色的系统评估》。

Denny Zhou, Nathanael Schärli, Le Hou, Jason Wei, Nathan Scales, Xuezhi Wang, Dale Schuurmans, Claire Cui, Olivier Bousquet, Quoc Le, et al.从最少到最多提示实现大型语言模型中的复杂推理》arXiv preprint arXiv:2205.10625.

周永超、Andrei Ioan Muresanu、韩子文、Keiran Paster、Silviu Pitis、Harris Chan 和 Jimmy Ba。2022b.大型语言模型是人类级别的提示工程师。

Yucheng Zhou, Xiubo Geng, Tao Shen, Chongyang Tao, Guodong Long, Jian-Guang Lou, and Jianbing Shen.2023.思维之线解开混沌语境。

Xizhou Zhu, Yuntao Chen, Hao Tian, Chenxin Tao, Weijie Su, Chenyu Yang, Gao Huang, Bin Li, Lewei Lu, Xiaogang Wang, Yu Qiao, Zhaoxiang Zhang, and Jifeng Dai.2023.魔兽世界里的幽灵通过基于文本知识和记忆的大型语言模型实现开放世界环境中的通用能力代理。

Zhichao Zuo, Zhao Zhang, Yan Luo, Yang Zhao, Haijun Zhang, Yi Yang, and Meng Wang.2023.剪贴：注意力控制下的主题驱动视频编辑。

A 附录

A.1 提示的定义

参考资料

提示

及时工程

(梅斯科，2023 年）

设计、改进和实施用于指导LLMs 输出的提示或指令，以帮助完成各种任务的实践。从本质上讲，它是与人工智能系统进行有效互动以优化其效益的实践。

(Chen 等人，2023a）。

模型的输入

LLMs 的输入文本结构化过程，也是优化LLMs

(山图和冯，2023 年）

指的是向LLMs 提供的文本输入，目的是引导它的输出朝着特定任务的方向发展

包括精心设计和修改查询或上下文，以便从以下方面引起所需的反应或行为LLMs

(Wang 等人，2023d）。

这涉及到设计有效的提示，以指导预训练的语言模型完成下游任务。

(Wang 等人，2023c）。

设计提示的过程，使模型能够适应和概括不同的任务。

(Hou 等人，2023 年）

人工预设自然语言结构

精心设计专门提示

(Wang 等人，2023e）。

的输入LLMs

与LLMs 沟通，引导其行为以取得预期成果

(怀特等人，2023 年）

提供给LLM 的指令，用于执行规则、自动处理和确保所生成输出的特定质量（和数量）。提示也是一种程序设计形式，可定制输出和与LLM 的交互。提示是提供给LLM 的一组指令，通过对LLM 进行用户化和/或增强或完善其功能来对进行编程。

LLMs 与大型语言模型 (LLMs)（如 ChatGPT）进行有效对话所需的一套日益重要的技能。

(赫斯顿和坤，2023 年）

输入

用专门的方法构建输入结构

(Liu 等人，2023b）。

选择适当的提示语，即创建一个提示功能

，以最有效地完成下游任务。

(Hadi et al、

向LLM 提供指令，使其遵循特定规则，实现流程自动化，并确保所生成的产品具有特定质量或数量

指的是对LLMs 所作提示的设计和措辞，以便从他们那里获得预期的反应。

(尼古、

这需要采取各种策略，包括显性指导和隐性情境[21]。显性指导包括通过指令、示例或说明向模型提供显性指导或约束。隐式情境利用模型对前一情境的理解来影响其反应

(Dang et al、

为改进生成模型的生成输出而构建提示的系统性实践

表 A.1：不同论文中对 "提示 "和 "提示工程 "的定义。

A.2 扩展词汇

A.2.1 提示术语

上下文窗口上下文窗口是模型可以处理的标记空间（LLMs ）。它有一个最大长度（上下文长度）。

引导（Schulhoff，2022 年）是指给模型一个初始提示，为对话的其余部分提供某些指示。这种引导提示可能包含一个角色或其他关于如何与用户互动的说明。引导可以在系统或用户提示中进行（见下文）。

A.2.2 快速工程术语

对话式提示工程是 colloquio 中的提示工程。也就是说，在与 GenAI 对话的过程中，用户可以要求 GenAI 完善其输出。相比之下，提示工程通常是向 GenAI 发送一个全新的提示，而不是继续对话。

A.2.3 微调术语

基于提示的学习（Liu 等人，2023b），又称提示学习（Liu 等人，2023b；Wang 等人，2023d），是指使用提示相关技术的过程。它通常用于微调，尤其是微调提示。由于用法上的冲突，我们不使用这一术语。

提示调整（Lester 等人，2021 年）指的是直接优化提示本身的权重，通常是通过某种形式的基于梯度的更新。它也被称为 "提示微调"（Prompt Fine-Tuning）。它不应被用来指离散提示工程。

A.2.4 正交提示类型

现在，我们将讨论对提示进行高级分类的术语。

A.2.4.1 发起人

用户提示这是一种来自用户的提示。这是最常见的提示形式，也是消费者应用程序中通常使用的提示方式。

助理提示这种 "提示 "只是LLM 本身的输出。当它被反馈到模型中时，例如作为与用户对话历史的一部分，就可以被视为提示（或提示的一部分）。

系统提示该提示用于向LLMs 提供与用户交互的高级指令。并非所有机型都有此功能。

A.2.4.2 硬提示与软提示

硬（离散）提示这些提示只包含与LLM 词汇表中的单词直接对应的标记。

软（连续）提示这些提示包含的标记可能与词汇表中的任何单词都不对应（Lester 等人，2021；Wang 等人，2023c）。当需要微调，但修改完整模型的权重又过于昂贵时，可以使用软提示。因此，可以使用冻结模型，同时允许梯度流过提示标记。

A.2.4.3 预测方式

在LLMs 中，预测样式是指预测下一个标记的格式。在提示研究中，有两种常见的格式。我们不讨论非文本预测样式。

Cloze 在 Cloze 提示中，需要预测的标记以 "待填空位 "的形式出现，通常位于提示的中间位置（Liu et al.早期的转换器模型（如 BERT）通常就是这种情况（Chu 和 Lin，2023 年）。

前缀在前缀提示中，要预测的标记位于提示的末尾（Liu et al.）这通常是现代 GPT 风格模型的情况（Radford 等人，2019b）。

A.3 数据表

我们提供了一份数据表（Gebru 等人，2021 年），其中包含了相关论文数据集的更多信息，该数据集托管在 HuggingFace 上。

A.3.1 动机

创建数据集的目的是什么？是否有特定的任务？是否存在需要填补的特定空白？请提供说明。

创建该数据集的目的是收集有关提示工程的现有文献，以便分析当前所有的硬前缀提示技术。

谁创建了数据集（如哪个团队、研究小组），代表哪个实体（如公司、机构、组织）？

本研究与马里兰大学学习提示项目有关，由 OpenAI 赞助，但不代表任何特定组织。

谁资助了数据集的创建？如果有相关赠款，请提供赠款人姓名、赠款名称和编号。

OpenAI 为其应用程序接口贡献了

的积分。

A.3.2 构成

组成数据集的实例代表什么（如文档、照片、人物、国家）？是否有多种类型的实例（例如，电影、用户和评分；人和他们之间的互动；节点和边）？请提供说明。

数据集包含 1,565 篇 PDF 格式的研究论文。任何重复的论文都已自动删除，尽管可能存在一些重复的论文。

每个实例包含哪些数据？"原始 "数据（如未经处理的文本或图像）还是特征？无论哪种情况，请提供说明。

每个数据实例都是一篇 PDF 格式的研究论文。

每个实例是否有相关标签或目标？如果有，请提供说明。没有

个别实例中是否缺少任何信息？如果有，请提供说明，解释丢失信息的原因（例如，因为无法获得）。这不包括故意删除的信息，但可能包括经编辑的文本等。

No.

数据集中是否存在错误、噪声源或冗余？如果有，请加以说明。

收集论文的过程是半自动化的，因此可能会出现无关论文被收集或相关论文未被收集的情况。为减少这两种可能出现的错误，我们进行了人工审核。

数据集是自成一体的，还是与外部资源（如网站、推文、其他数据集）相链接或依赖于外部资源？

它自成一体。

数据集是否包含可能被视为机密的数据（如受法律特权或医患保密保护的数据、包含个人非公开通信内容的数据）？如果是，请提供说明。

No.

数据集是否包含如果直接查看可能会令人反感、侮辱、威胁或可能引起焦虑的数据？如果是，请说明原因。

该数据集包含一些有关快速注射的论文。这些论文可能包含冒犯性内容，包括种族主义和性别歧视。

A.3.3 收集过程

如何获取与每个实例相关的数据？

该数据集是从 Arxiv、Semantic Scholar 和 ACL 汇编而来。

使用了哪些机制或程序来收集数据？

我们编写了脚本来自动查询 Arxiv 和 Semantic Scholar 的应用程序接口。

数据是在什么时间范围内收集的？

该数据集在研究论文期间（主要是 2024 年 2 月）进行了整理

是否进行了伦理审查？

No.

A.3.4 预处理/清洗/贴标签

是否对数据进行了预处理/清理/标记？

从不同来源收集数据后，我们删除了重复的论文，并对论文进行了人工和半自动审查，以确保它们都是相关的。

除了预处理/清理/标记的数据外，是否还保存了 "原始 "数据？

不，我们预计不会使用我们的预处理数据。不过，可以从我们存储的链接中恢复原始数据。

用于预处理/清理/标记数据的软件是否可用？

它包含在我们 Github 上的代码库中。

A.3.5 用途

数据集是否已用于任何任务？

No.

是否有一个资源库可以链接到使用该数据集的任何或所有论文或系统？有。

数据集的构成或收集和预处理/清理/标记方式是否会影响未来的使用？

我们收集的所有论文均以英文撰写。有些论文可能因为没有译文而未被收录。

有哪些任务不应该使用数据集？没有。

A.3.6 分配

数据集是否会分发给创建数据集的实体以外的第三方？

No.

A.3.7 维护

谁将支持/托管/维护数据集？

我们的团队将继续进行维护。

如何联系数据集的所有者/收藏者/管理者？

请发送电子邮件至 sanderschulhoff@gmail.com

有勘误表吗？

No.

如果其他人想对数据集进行扩展/增强/构建/贡献，是否有机制让他们这样做？

是的，任何人都可以自由使用/修改数据。

A.4 关键词

以下是我们用于搜索的关键字。

越狱提示
提示llm
提示大型语言模型
及时注射
迅速优化
及时工程
少量学习
几枪学习
基于提示的方法
基于提示的方法
基于提示的方法
基于提示的方法
短促
几枪提示
单次提示
一针见血的提示
几枪提示
几枪提示
一次性提示
一枪提示
提示技巧
及时的工程技术
llm 提示
大语言模型提示
0 -拍摄提示
0 射击提示
零镜头提示
多枪提示
零镜头提示
多枪提示
情境学习
情境学习
变压器模型提示
基于提示的迁移学习
nlp 提示策略
通过提示的可解释性
通过提示进行课程学习
llm 提示中的反馈回路
人在回路中提示
令牌高效提示
多模态提示
指令提示
提示模板
提示模板

A.5 评估表

表 A.2：评估文件摘要。E：显性（模型是否产生评估），I：隐性（评估是否来自模型输出）；Response（Res：隐性（是否从模型输出中得出评估）；响应（Res. S：单个响应，M：多个响应；

：模型生成的指令；

A.6 诱导过程

本部分包含提示工程师在开发提示时的思考过程。

A.6.1 探索

首先对数据集进行了一些探索，查看了长度/标签分布，然后选择了夹带作为起点。
检查 gpt-1106-preview 是否理解 "诱捕"，要求它定义 "WRT SCS "一词。它不明白。

A.6.2 获取标签

我在系统提示中向它展示了 "诱捕 "的定义，并要求它标注一个数据点，但它回复说我应该寻求心理健康支持。
我在用户提示中输入了说明，但得到的答复大同小异。
再加上 "这是诱捕吗？是或否"，它才会真正给出一个标签。
我给它举了一个拒绝的例子，但它却将其标记为接受，有时还会对寻求帮助做出情绪反应。
使用 "10-shot "提示时，它仍然会给出 "获取帮助 "的回复。
我试着删除定义，结果还是一样。看来它不喜欢把 "接受"/"拒绝 "作为标签。
我重新添加了定义，将标签改为诱捕/非诱捕，它经常说 "信息不足，无法确定"。
我改用 GPT-4-32K，它只给出一个单词的回复，并正确预测了一个拒绝和一个接受数据点。

A.6.3 不同的提示技术

测试了 0 次有背景的拍摄。
10 -结合背景拍摄，有进步。
将第一个失败实例带入操场。(第 12 个在火车文件中）
试着做 "A：让我们一步一步来解决这个问题："，输出 "A：是"
做了 "A：让我们一步一步来解决这个问题：", OUTPUT：

帖子中的人表达了绝望、孤独和无助的情绪。他们提到了一次重大的丧母之痛（他们的母亲）以及随之而来的精神健康状况的下降，并将酗酒作为一种应对机制。他们还提到了经济困境和无家可归的可能性。他们对自己的处境表示内疚和羞愧，并将自己与朋友和家人进行负面比较。最令人担忧的是他们详细的自杀计划，包括服用安眠药和酗酒。他们还提到考虑从汽车前跳下。鉴于这些因素，这篇帖子的标签应该是 "是"，因为他们表达了被困的感觉。

"答：在预测标签之前，让我们一步步写出你的思考过程。使用 "诱捕 "定义中的项目来支持你的结论。"，输出：

在预测标签之前，让我们一步步写出你的思考过程。使用 "诱捕 "定义中的项目来支持你的结论。

开始与人工智能讨论 "他们从来没有说过自己被困住了或者没有出路，你怎么会有这种想法？"，输出：

当事人没有明确表示他们感到被困或没有出路，但他们的叙述暗示了一种被困感。他们提到自己正面临被驱逐、债务缠身、收入减少等问题。他们还表达了一种绝望和无助感，并考虑用自杀来解决他们的问题。这些因素表明，他们感觉自己被困在当前的环境中，没有明显的出路。不过，需要注意的是，这种解释是基于帖子中提供的信息以及个人表达的感受和想法。

要求它帮助重新制定指令，使明确性更有必要，但它仍然预测出了诱捕。
在定义之后的指令顶端添加了 "ENTRAPMENT MUST BE EXPLICIT, NOT IMPLICIT.
还用以前的 CoT 诱导剂试过，仍然是难以解析的 "夹带"。
添加了 "如果当事人没有明确表示他们感到被困住，这不算诱捕。(无 CoT），仍然是诱捕。
在与人工智能对话时，它认为 "今天我发现我有 10 天时间搬出我的公寓，否则我将被正式驱逐。我已经拖欠房租两个月了，原因是我在工作中被降职，房租也从大约每两周降到左右。如果我被赶走，我可能就无家可归了"，这是一种被困住的感觉。
尝试了 "在贴标签之前，用上面的表格写出为什么这可能/不可能是诱捕的理由："，仍然认为是诱捕。
在电子邮件中粘贴：[删除]上述诱捕定义
移除镜头，称 "诱捕"
在 def 后添加以下内容：重要：只有当他们明确表示感觉被困住时，才将帖子标记为 "被困住"。
在提示中，给出了 CoT 推理。(18.txt），并尝试了下一个错误标注（15），（完整提示，19.txt）
除了前 20 项之外，对所有项目都进行了测试，结果相当不错
尝试删除电子邮件，性能急剧下降
在这一点上，我认为举例说明是有帮助的（显而易见）
在最后一次推理之前，我试着免费添加 10 个镜头，结果很糟糕

A.6.3.1 AutoCoT

使用此提示（22.txt）开发数据集。然后问它 "为什么？如果它不同意，我就说："这其实不是诱捕，请解释原因。"(不小心重复了邮件 23.txt）。
为了好玩，我尝试了 0 次全景拍摄（不得不调整动词）。
用特殊口述器进行了尝试，结果发现 "此帖不符合诱捕标准"。
测试我生成的数据
用 autocot 再做 10 个范例。有时会立即得到回复，理由是 "此帖不符合'被困'的标准，因为此人没有明确表达被困或绝望的感觉"，如果是这样的话，就用这个理由。有时会得到这样的拒绝："我很遗憾听到你有这样的感受，但我无法提供你所需要的帮助。不过，和可以帮到你的人，比如心理健康专家或你生活中值得信赖的人，好好谈谈是非常重要的。"，如果是这样，就在 "解释一下为什么这不是被困 "之后提问。
性能并没有真正提高，我发现大约的结果是-1，意思是提取不正确。用 "问题 "一词代替 Q 重试，推理和答案也是如此。
这导致更高的无法解析率，约为。

A.6.3.2 开发答案提取功能

把第一次未能解析 (22) 中的一个问题，并为此开发了一个提示。
更糟：（0.42857142857142855，0.5051546391752577，0.8571428571428571、
如果有-1，则只使用提取的标签，这对 , 0.333333333333333333 ) 稍有帮助。
返回到性能最佳的 prompt-10 QRA 射击，并使用任何执行拔枪操作，除了轻轻地提高准确性外，没有任何帮助，也许在它没有回答的时候会有帮助。

A.6.3.3 迭代电子邮件

尝试了最佳敷料，没有电子邮件
尝试删除电子邮件，结果更糟
注意到它不确定的那些标签经常包含本应为 0 的 1 标签，因此尝试 "恢复 "这些标签无济于事
尝试移动示例顺序，执行提取，但无济于事
发送了三封邮件，但都无济于事

A.7 正式定义提示

"提示 "是一个被广泛使用的术语，但在不同的研究中，其用法和定义却大相径庭。因此，很难为提示创建一个正式的数学定义。在本节中，我们将概述一些提示工程的形式主义。

作为条件机制。Qiao 等人（2022 年）提出了以下定义，即提示

和问题

是预测下一个标记的条件机制。需要注意的是，他们似乎使用了 Brown 等人（2020 年）对提示的最初定义，即提示中的非问题部分（如少许示例、指示）。

在这里，提示和问题是预训练LLM

的条件。

是之前生成的答案标记，

一个完整的答案。

模板化。上述形式化并不包括最大化评分或效用函数（如数据集上的准确率）的概念，而提示语通常就是为了实现这一目标而设计的。此外，提示工程师通常寻求设计提示模板而非提示。在此，我们将公式 (A.1) 重新表述，以包含提示模板：

我们将

替换为

，这是数据集（如评估数据）中的一个项目。此外，我们还将

右侧替换为

是一个提示模板：一个接受某个项目作为输入，然后返回一个用于调节模型的提示的函数。

少量提示。通常情况下，提示过程的一个重要部分就是使用少量示例。

是训练数据（用于建立提示），

是用于评估的测试集。

在少拍设置中，提示模板函数

也将一个或多个训练样本作为输入

优化。如前所述，我们通常希望根据评分函数（通常是根据数据集定义的）来改进提示（即提示模板）。

在这一定义中，我们对数据集

进行评估，评分函数

评估输出

，由LLM 生成，以提示

§

为条件，是可由

使用的标记输出。

在某些情况下，可能没有任何标注数据

，而

可能没有参照物。

其他考虑因素。这些形式主义可以进行调整，以适应协同工作、检索系统等。在这里，我们描述了一个简单的设置，它最能说明提示过程，同时又不会增加太多复杂性。

是对原始LLM 输出的转换函数，可将其与地面实况进行比较。

A.8 上下文学习定义消歧

Brown 等人（2020 年）似乎对 ICL 下了两个不同的定义。本节中所有粗体字均为我们自己的定义。

零点射击

该模型仅根据任务的自然语言描述来预测答案。不进行梯度更新

少量拍摄

除了任务描述外，模型还能看到一些任务示例。不进行梯度更新。

Translate English to French:
sea otter => loutre de mer
peppermint => menthe poivrée
plush girafe => girafe peluche
cheese =>

传统微调（不用于 GPT-3）

微调

该模型通过使用大量示例任务语料库进行反复梯度更新来训练。

图 A.1：Brown 等人（2020 年）的 ICL。

此外，他们还明确指出，综合学习法并不一定涉及学习新任务。

为避免混淆，我们使用 "元学习 "一词来表示一般方法的内环/外环结构，而 "上下文学习 "一词则指元学习的内环。根据推理时提供的演示次数，我们将描述进一步专门化为 "零次"、"一次 "或 "少量"。我们使用这些术语的目的是不考虑模型是在推理时从头开始学习新任务，还是仅仅识别训练时看到的模式--这是一个重要的问题，我们将在本文后面进行讨论，但 "元学习 "的目的是涵盖这两种可能性，并简单描述内-外循环结构。

我们使用 Brown 等人（2020）的广义定义，但注意到实践者通常使用 ICL 来指代模型似乎从提示中学习新任务的情况。我们的定义不同于 Dong 等人（2023 年）的正式定义，尽管它也源自（Brown 等人，2020 年）。

A.9 捐款

以下是团队成员在本文各章节中所做的贡献。大多数作者还对其他章节进行了审阅。

顾问

丹尼斯-佩斯科夫协助论文组织和最终审核。
亚历山大-霍伊尔（Alexander Hoyle）：为案例研究的写作、荟萃分析方法和自动基线运行提供指导。
Shyamal Anadkat：协助对论文、词源学和定义进行全面审查。
朱尔斯-怀特为技术分类法建树
Marine Carpaut：为多语种部分拟定、审查和推荐论文。
菲利普-雷斯尼克首席研究员

SCS 标签

Megan L. Rogers、Inna Goncearenco、Giuseppe Sarli、Igor Galynker：对本节进行了审查并提出了建议。

基准和代理

康斯坦丁-卡哈泽（Konstantine Kahadze）：基准测试组组长；管理MLU 基准测试代码库，为安全和元分析做出贡献。
Ashay Srivastava：代理部分的组长，审阅人工审核论文，参与工具使用代理部分的工作。负责汇编投稿。
Hevander Da Costa：为 "基准测试 "部分和 "元审查 "数据集列表做出了贡献，回顾了有关LLM 代码生成和提示技术的文献。为 "代理 "部分添加了文献综述内容。
Feileen Li：负责工具使用代理部分，协助人类论文审查。

对齐与安全

Nishant Balepur：对齐部分的组长，协助基准制定方面的高层讨论，并审阅草稿。
Sevien Schulhoff：安全部分的组长，并为基准设定部分做出了贡献。

Chenglei Si：推荐相关作品并编辑了第 2.2 节和第 7 节。
Pranav Sandeep Dulepet：为第 2 部分提供定义，并在多模态部分从事分割和物体检测工作。
HyoJung Han：为多模态部分（尤其是语音+文本部分）做出了贡献，并撰写了音频提示部分。
Hudson Tao：撰写多模态中的图像、视频和三维部分，对论文进行人工审核；维护 GitHub 代码库，并建立项目网站。
Amanda Liu：撰写了分类本体论部分，对导言和相关工作进行了背景研究，开发了元分析图的代码管道
Sweta Agrawal：评估小组组长。
Saurav Vidyadhara：协助总审查和修订分类树。
Chau Pham：协助进行元审查，包括对主题进行自动分析。

多语言提示和元分析

Zoey Ki：领导多语言提示部分，对相关论文进行审查，并撰写第 3.1 节。
Yinheng Li：参与第 2.2 节基于文本的技术的工作，审查技术，并协助起草图 2.2。
Saloni Gupta：编写论文编译测试，帮助建立论文管道，并为论文编写代码图和语法。
格尔森-克罗伊茨与第 1.1 节和定义提示有关。
Aayush Gupta：参与元分析、汇编论文和生成可视化图表。
迈克尔-伊利（Michael Ilie）：共同第一作者，负责管理代码库、运行实验、收集数据，并协助完成多个部分的工作，包括 PRISMA 评审图和 SCS 提示案例研究。
桑德-舒尔霍夫：主要作者

"指令 "出自 Searle (1969)，是一种旨在鼓励行动的言语行为，在人机对话模型中被引用。
例如，上下文是在前向传递中处理的标记LLM
所谓强大，是指它涵盖了该领域现有的大多数常用术语。
使用 GPT-4-1106-preview
我们注意到，在描述此类技术时，经常使用 "思考 "等将模型拟人化的词语。我们尽量不使用这种语言，但会在适当的地方使用原作者的语言。
在粒度（如标记与跨度）方面，我们采用了与 Liu 等人（2023b）不同的定义，因为输出可能是不同的模式。
基于词典的机器翻译提示（DiPMT）（Ghazvininejad 等人，2023 年）的工作原理与相似，但只给出源语言和目标语言的定义，格式也略有不同。
不包括独立行动的人工智能概念，即在任何意义上都有自己目标的系统
这种能力可被视为一种工具（即代码解释器）
本节不介绍如何对进行基准测试，而是介绍如何将其用作评估工具。LLMs
歧义：与多个提示并行向前传递没有关系。我们指的是包含多个评估项目的单个提示。
例如，执行人员可能会使用提示模板 "检测用户输入有害信息的所有情况： IN PUT}"，试图阻止对抗性输入，但这却巧妙地作出了错误的预设，即用户的输入实际上是有害的。因此，出于谄媚心理，可能会倾向于将用户的输出归类为有害。 LLM
不包括 human_sexuality，因为 gpt-3.5-turbo 拒绝回答这些问题。
前一个术语更明确地强调了为摆脱无法忍受的生活境况而必须采取的疯狂和绝望的行动。然而，"诱捕 "一词更简短，使用范围也更广，因此我们在此采用它。

披露：该专家也是本文的主要作者。
精确度又称正预测值，召回率又称真阳性率或灵敏度。虽然 F1 通常在计算系统评估中被用作单一的优劣值，但我们注意到，在这个问题空间中，精确度和召回率的平均加权可能并不合适。我们将在下文进一步讨论。
温度和 top-p 是控制输出随机性的配置超参数（Schulhoff，2022 年）。
在这里以及案例研究的其余部分，我们以 F1 来判断 "最佳"，并报告当前讨论的提示与之前表现最佳的提示的对比情况。
试图避免使用类似"LLM生成了对其推理的解释 "这样的误导性语言。LLMs无法访问自己的内部过程，因此它们无法在通常意义上 "解释自己的推理"。LLM 生成的 "解释 "是对获得输出的潜在推理步骤的描述，它可能是真实的，但也可能根本不准确。
https://openai.com/research/ gpt-4v-system-card