这是用户在 2024-5-31 9:01 为 https://platform.openai.com/docs/guides/prompt-engineering/strategy-test-changes-systematically 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

推出 GPT-4o:我们速度最快且最具性价比的旗舰型号
Learn more‍


本指南分享了从大型语言模型(有时称为 GPT 模型)如 GPT-4o 中获得更佳结果的策略与技巧。文中所述方法有时可结合使用以增强效果。我们鼓励您进行尝试,以找到最适合您的方法。


您还可以探索展示我们模型能力的示例提示:

 提示示例

探索提示示例,了解 GPT 模型能做什么


这些模型无法读懂你的心思。若输出过长,请要求简短回复;若输出过于简单,请要求专家级文案。若不满意格式,请展示你期望的格式。模型猜测你需求的越少,你得到满意结果的可能性就越大。

 战术:


语言模型能自信地编造虚假答案,尤其在被问及深奥主题或索要引用和网址时。正如一张笔记能助学生考试表现更佳,为这些模型提供参考文本亦可减少其捏造答案的情况。

 战术:


正如软件工程中将复杂系统分解为一组模块化组件是良好的实践,对于提交给语言模型的任务而言,同样如此。复杂任务往往比简单任务具有更高的错误率。此外,复杂任务通常可以重新定义为一系列简单任务的工作流程,其中早期任务的输出被用来构建后续任务的输入。

 战术:


如果要求将 17 乘以 28,你可能无法立刻得出答案,但仍可通过时间计算出来。同样,模型在试图立即回答时会犯更多推理错误,而不是花时间去推算答案。在回答前要求一个“思考链”可以帮助模型更可靠地推理出正确答案。

 战术:


通过引入其他工具的输出,弥补模型的不足。例如,文本检索系统(有时称为 RAG 或检索增强生成)能向模型提供相关文档信息。像 OpenAI 的代码解释器这样的代码执行引擎,则能辅助模型进行数学运算和代码执行。若某项任务通过工具执行更为可靠或高效,而非依赖语言模型,那么将其外包给工具,以兼得两者之长。

 战术:


提升性能若能衡量则更易实现。有时,对提示稍作修改虽能在几个孤立实例上取得更好表现,却可能导致在更具代表性的一组实例上整体性能下降。因此,为确保某项改动对性能的提升是净正向的,可能需要定义一套全面的测试套件(亦称为“评估”)。

 策略:


上述每种策略均可通过具体战术来实现。这些战术旨在提供尝试的思路,绝非全面详尽,您大可尝试此处未提及的创新想法。


为了获得高度相关的回答,请确保请求中包含任何重要细节或背景信息。否则,您将让模型自行猜测您的意图。

WorseBetter

如何在 Excel 中添加数字?

如何在 Excel 中对一整行美元金额求和?我希望自动对整个工作表的各行进行求和,并将所有总计显示在右侧名为“总计”的列中。
 谁是总统?
2021 年墨西哥的总统是谁,选举多久举行一次?

编写代码以计算斐波那契数列。

编写一个 TypeScript 函数,高效计算斐波那契数列。代码中大量注释,详细解释每部分的功能及其如此编写的原因。

总结会议记录。

将会议记录总结成一个段落。然后以 Markdown 列表形式列出每位发言者及其主要观点。最后,列出发言者提出的下一步行动或任务,如有的话。


系统消息可用于指定模型在回复时所采用的角色身份。

 系统

当我请求帮助撰写内容时,你将回复一份文档,其中每个段落至少包含一个笑话或俏皮话。
 源文本:USER 翻译文本:用户

致我的钢螺栓供应商:感谢您在短时间内及时交付货物,这使得我们能够按时完成一项重要订单。
 在 Playground 中打开


诸如三重引号、XML 标签、章节标题等定界符有助于区分需要不同处理的文本部分。

 源文本:USER 翻译文本:用户

三引号间文, 浓缩成俳句精华, 简洁意蕴达。 源文本:"""insert text here""" 翻译文本:"""在此插入文本"""
 在 Playground 中打开
 系统

你将获得一对关于同一主题的文章(以 XML 标签分隔)。首先,总结每篇文章的论点。然后指出哪篇文章的论点更为有力,并解释原因。
 源文本:USER 翻译文本:用户

<article> 在此插入第一篇文章 </article> 源文本:<article> 在此插入第二篇文章 </article> 翻译文本:<article> 在此插入第二篇文章 </article>
 在 Playground 中打开
 系统

你将获得一篇论文摘要及其建议标题。论文标题应让读者对论文主题有清晰认识,同时要引人注目。若标题不符合这些标准,请提出 5 个备选方案。
 源文本:USER 翻译文本:用户

摘要:在此插入摘要 标题:在此插入标题
 在 Playground 中打开


对于这类简单的任务,使用分隔符可能不会对输出质量产生影响。然而,任务越复杂,明确任务细节就越重要。不要让模型费力去理解你到底在要求它们做什么。


某些任务最好以一系列步骤来明确指定。将这些步骤详细写出来,有助于模型更容易遵循。

 系统

按照以下分步指南来回应用户输入。 步骤 1 - 用户将向你提供用三重引号括起来的文本。请用一句话概括这段文本,并以“总结: ”作为前缀。 步骤 2 - 将步骤 1 中的摘要翻译成西班牙语,并在前面加上"翻译: "的前缀。
 源文本:USER 翻译文本:用户
 源文本:"""insert text here""" 翻译文本:"""在此插入文本"""
 在 Playground 中打开


提供适用于所有示例的一般性指导通常比通过示例演示任务的所有排列组合更高效,但在某些情况下,提供示例可能更为简便。例如,如果您希望模型模仿一种难以明确描述的用户查询响应风格。这被称为“少样本”提示。

 系统

以一贯的风格回答。
 源文本:USER 翻译文本:用户

教我学会耐心。
 源文本:ASSISTANT 翻译文本:助手

那条刻凿出最深峡谷的河流,源自一处不起眼的泉眼;最宏伟的交响乐,始于一个简单的音符;最复杂的挂毯,起始于一根孤立的线头。
 源文本:USER 翻译文本:用户

请给我讲解一下海洋的知识。
 在 Playground 中打开


您可以要求模型生成指定目标长度的输出。目标输出长度可以按单词、句子、段落、项目符号等的数量来指定。但请注意,指示模型生成特定数量的单词并不具有高精度。模型更可靠地生成具有特定数量段落或项目符号点的输出。

 源文本:USER 翻译文本:用户

请用约 50 字概述三引号内的文本内容。 源文本:"""insert text here""" 翻译文本:"""在此插入文本"""
 在 Playground 中打开
 源文本:USER 翻译文本:用户

请将以下由三个引号分隔的文本总结为两段。 翻译文本: """ 在当今快速发展的科技时代,人工智能(AI)已成为推动社会进步的重要力量。AI 技术不仅在医疗、教育、交通等多个领域展现出巨大潜力,还在日常生活中为我们提供了诸多便利。然而,随着 AI 技术的不断深入,也引发了一系列伦理和安全问题,如隐私保护、数据安全以及机器自主性等。因此,如何在促进技术发展的同时确保其合理应用,已成为全球关注的焦点。 另一方面,随着全球化的加速,国际合作在应对气候变化、资源分配和经济发展等全球性问题上显得尤为重要。各国政府和国际组织正通过多边合作机制,共同制定政策和行动计划,以实现可持续发展目标。在这一过程中,科技创新被视为关键驱动力,它不仅能够帮助我们更有效地解决问题,还能为全球经济增长注入新动力。""" 源文本:"""insert text here""" 翻译文本:"""在此插入文本"""
 在 Playground 中打开
 源文本:USER 翻译文本:用户

将三引号之间的文本归纳为 3 个要点。 源文本:"""insert text here""" 翻译文本:"""在此插入文本"""
 在 Playground 中打开


若我们能为模型提供与当前查询相关且可信的信息,便可指示模型利用所提供的信息来构建其回答。

 系统

利用三引号分隔的提供文章来回答问题。如果答案无法在文章中找到,请写上“我未能找到答案。”
 源文本:USER 翻译文本:用户

源文本:<插入文章,每篇由三重引号分隔> 翻译文本: 问题:<此处插入问题>
 在 Playground 中打开


鉴于所有模型都具有有限的上下文窗口,我们需要某种方式来动态查找与所提问题相关的信息。嵌入技术可用于实现高效的知识检索。欲了解如何实施此策略的更多细节,请参阅“利用基于嵌入的搜索实现高效知识检索”这一战术。


若输入已补充相关知识,要求模型在回答中引用所提供文档的段落来添加引用是直接明了的。请注意,输出中的引用可通过在提供的文档内进行字符串匹配来程序化验证。

 系统

你将获得一份由三重引号界定的文档及一个问题。你的任务是仅依据提供的文档来回答该问题,并引用文档中用于回答问题的段落。若文档中不包含回答此问题所需的信息,则直接写明:“信息不足。”若提供了问题的答案,则必须附上引用标注。引用相关段落时,请采用以下格式:({"citation": …})。
 源文本:USER 翻译文本:用户

源文本:"""<插入文档此处>""" 翻译文本: 问题:<在此插入问题>
 在 Playground 中打开


对于需要大量独立指令集来处理不同情况的任务,首先对查询类型进行分类,并利用该分类确定所需指令,可能更为有益。这可以通过定义固定类别并硬编码与特定类别任务处理相关的指令来实现。此过程还可递归应用于将任务分解为一系列阶段。这种方法的优势在于,每个查询仅包含执行任务下一阶段所需的指令,与使用单一查询执行整个任务相比,这可能导致错误率降低。同时,由于较大的提示运行成本更高(参见定价信息),这也可能降低成本。


假设例如在客户服务应用中,查询可以有效地分类如下:

 系统

您将收到客户服务咨询。请将每个咨询归类到主要类别和次要类别。输出格式请采用 json 形式,包含键:primary 和 secondary。 主要分类:账单、技术支持、账户管理或一般咨询。 次要账单分类: 取消订阅或升级 添加支付方式 费用说明 争议收费 技术支持二级分类: 故障排除 设备兼容性 软件更新 账户管理二级分类: 密码重置 更新个人信息 关闭账户 账户安全 一般咨询二级分类: 产品信息 定价 反馈 与人类交谈
 源文本:USER 翻译文本:用户

我需要让我的网络重新运作起来。
 在 Playground 中打开


根据客户查询的分类,可以提供一组更具体的指令,以便模型处理下一步操作。例如,假设客户需要“故障排除”方面的帮助。

 系统

您将收到需要技术支持背景下进行故障排除的客户服务咨询。请通过以下方式帮助用户: 请他们检查路由器所有进出电缆是否连接好。注意,随着时间的推移,电缆松动是常见现象。 如果所有电缆都已连接且问题依旧存在,询问他们使用的是哪款路由器型号 现在,您将指导他们如何重启设备: -- 若型号为 MTD-327J,建议他们按下红色按钮并保持 5 秒,然后等待 5 分钟再测试连接。 -- 若型号为 MTD-327S,建议先拔掉再重新插上电源,然后等待 5 分钟再测试连接。 如果客户的问题在重启设备并等待 5 分钟后仍然存在,请通过输出{"IT 支持请求"}将他们连接到 IT 支持。 如果用户开始询问与当前话题无关的问题,请确认他们是否希望结束关于故障排除的当前对话,并根据以下方案对其请求进行分类: 源文本:<此处插入上述主要/次要分类方案> 翻译文本:
 源文本:USER 翻译文本:用户

我需要让我的网络重新运作起来。
 在 Playground 中打开


请注意,模型已被告知在对话状态发生变化时发出特殊字符串。这使我们能够将系统转变为状态机,其中状态决定注入哪些指令。通过跟踪状态、该状态下哪些指令相关,以及可选地从该状态允许哪些状态转换,我们可以在用户体验周围设置护栏,这些护栏很难通过结构化程度较低的方法实现。


由于模型具有固定的上下文长度,用户与助手之间的对话,如果整个对话都包含在上下文窗口内,则无法无限期地继续下去。


针对此问题,有多种变通方法,其中之一是在对话中总结之前的轮次。一旦输入内容达到预设的阈值长度,便可触发一个查询,该查询会总结对话的一部分,并将先前对话的摘要作为系统消息的一部分包含进去。或者,可以在整个对话过程中异步地在后台对之前的对话进行总结。


另一种解决方案是动态选择与当前查询最相关的对话部分。参见策略“利用嵌入式搜索实现高效知识检索”。


由于模型具有固定的上下文长度,因此无法通过单次查询来总结超过上下文长度减去生成摘要长度之和的长篇文章。


要总结一本如书般冗长的文档,我们可以使用一系列查询来概括文档的每个部分。各部分摘要可以串联起来并进一步提炼,生成摘要的摘要。此过程可递归进行,直至整个文档被总结完毕。若需借助先前章节的信息来理解后续章节,一个有用的技巧是在总结当前内容时,同时包含该点之前文本的持续性摘要。OpenAI 在先前的研究中利用 GPT-3 的变体探讨了此方法在书籍总结上的有效性。


有时,当我们明确指示模型从第一性原理出发进行推理,再得出结论时,会得到更好的结果。假设我们希望模型评估学生对一道数学题的解答。最直接的方法就是简单地询问模型学生的解答是否正确。

 系统

判断学生的解答是否正确。
 源文本:USER 翻译文本:用户

问题陈述:我正在建设一个太阳能发电装置,需要帮助计算财务方面的事宜。 土地价格为每平方英尺 100 美元 我可以以每平方英尺 250 美元的价格购买太阳能板 我谈妥了一份维护合同,每年固定费用为 10 万美元,此外每平方英尺还需额外支付 10 美元 第一年运营的总成本与平方英尺数的关系是怎样的? 学生解决方案:设 x 为安装面积的平方英尺数。 1. 土地成本:100 倍 2. 太阳能板成本:250 倍 维护成本:100,000 + 100x 总成本:100x + 250x + 100,000 + 100x = 450x + 100,000
 翻译文本:助手

学生的解决方案是正确的。
 在 Playground 中打开


然而,学生的解答实际上并不正确!我们可以通过先让模型生成自己的解答来成功地让它注意到这一点。

 系统

首先自己解决这个问题,然后将你的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。在你亲自解决问题之前,不要判定学生的解决方案是否正确。
 源文本:USER 翻译文本:用户

问题陈述:我正在建设一个太阳能发电装置,需要帮助计算财务方面的事宜。 土地价格为每平方英尺 100 美元 我可以以每平方英尺 250 美元的价格购买太阳能板 我谈妥了一份维护合同,每年固定费用为 10 万美元,另外每平方英尺加收 10 美元 第一年运营的总成本与平方英尺数的关系是怎样的? 学生解决方案:设 x 为安装面积的平方英尺数。 1. 土地成本:100 倍 2. 太阳能板成本:250 倍 3. 维护成本:100,000 + 100x 总成本:100x + 250x + 100,000 + 100x = 450x + 100,000
 助手

设 x 为安装面积的平方英尺数。 1. 土地成本:100 倍 2. 太阳能板成本:250 倍 3. 维护成本:100,000 + 10x 总成本:100x + 250x + 100,000 + 10x = 360x + 100,000 学生的解决方案有误。他们在维护成本计算中犯了错误,使用了 100x 而不是 10x。第一年运营的正确总成本应为 360x + 100,000。
 在 Playground 中打开


之前的策略表明,模型有时在回答具体问题前,深入细致地推理问题是至关重要的。对于某些应用场景,模型得出最终答案的推理过程可能并不适合与用户分享。例如,在辅导应用中,我们可能希望鼓励学生自己解出答案,但模型对学生解决方案的推理过程可能会向学生透露答案。


内心独白是一种可用于缓解此问题的策略。内心独白的理念是指导模型将原本对用户隐藏的部分输出内容,以一种便于解析的结构化格式呈现。在向用户展示输出结果之前,先对其进行解析,仅显示部分输出内容。

 系统

按照以下步骤来回答用户查询。 第一步 - 首先自己解决这个问题。不要依赖学生的解决方案,因为它可能不正确。将此步骤的所有工作用三重引号(""")括起来。 步骤 2 - 将你的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。请将此步骤的所有工作内容用三重引号(""")括起来。 第三步 - 如果学生犯了错误,确定你可以给出什么提示而不泄露答案。将此步骤的所有工作用三重引号(""")括起来。 步骤 4 - 如果学生犯了错误,提供上一步的提示给学生(不在三重引号内)。不要写“步骤 4 - ...”,而是写“提示:”。
 源文本:USER 翻译文本:用户

问题陈述:<插入问题陈述> 学生解决方案:<插入学生解决方案>
 在 Playground 中打开


或者,这可以通过一系列查询来实现,其中除最后一个之外的所有查询的输出都对最终用户隐藏。


首先,我们可以让模型自行解决问题。由于这个初步查询无需学生提供解答,因此可以省略。这样还带来一个额外好处,即模型的解答不会受到学生尝试解答的影响而产生偏差。

 源文本:USER 翻译文本:用户

源文本:<插入问题陈述> 翻译文本:
 在 Playground 中打开


接下来,我们可以让模型利用所有可用信息来评估学生解决方案的正确性。

 系统

将你的解决方案与学生的解决方案进行比较,并评估学生的解决方案是否正确。
 源文本:USER 翻译文本:用户

问题陈述:"""<插入问题陈述>""" 您的解决方案:"""<插入模型生成的解决方案>""" 学生解决方案:"""<插入学生解决方案>"""
 在 Playground 中打开


最后,我们可以让模型利用自身的分析来构建一个乐于助人的导师角色的回复。

 系统

你是一位数学家教。如果学生犯了错误,请以不透露答案的方式给学生提供一个提示。如果学生没有犯错,只需给予他们一句鼓励的话。
 源文本:USER 翻译文本:用户

问题陈述:"""<插入问题陈述>""" 您的解决方案:"""<插入模型生成的解决方案>""" 学生解决方案:"""<插入学生解决方案>""" 分析:"""<插入上一步模型生成的分析内容>"""
 在 Playground 中打开


假设我们正在使用一个模型来列出与特定问题相关的源文档摘录。在列出每个摘录后,模型需要决定是继续写下一个,还是应该停止。如果源文档很大,模型往往会过早停止,未能列出所有相关摘录。在这种情况下,通过后续查询提示模型,以查找之前遍历中遗漏的任何摘录,通常可以获得更好的性能。

 系统

你将获得一份由三重引号分隔的文档。你的任务是挑选出与以下问题相关的摘录:“人工智能历史上发生了哪些重大的范式转变。” 确保摘录包含解释它们所需的所有相关上下文——换句话说,不要提取缺少重要上下文的小片段。以如下 JSON 格式提供输出: Translation Text: 源文本:[{"excerpt": "..."}, 翻译文本: ... 翻译文本:{"摘要": "..."}
 源文本:USER 翻译文本:用户

源文本:"""<在此插入文档>""" 翻译文本:<在此插入文档>
 助手

模型在此处撰写了一段摘录 ... 模型在这里又写了一段摘录
 源文本:USER 翻译文本:用户

还有更多相关的摘录吗?注意不要重复摘录。同时确保摘录包含了解释它们所需的所有相关背景——换句话说,不要提取缺少重要背景的小片段。
 在 Playground 中打开


模型若在输入中提供外部信息源,便可加以利用。这有助于模型生成更明智、最新的回答。例如,当用户询问某部电影的具体信息时,将该电影的高质量信息(如演员、导演等)纳入模型输入可能十分有益。通过嵌入技术可实现高效的知识检索,从而在运行时动态地将相关信息添加到模型输入中。


文本嵌入是一种向量,可用于衡量文本字符串之间的相关性。相似或相关的字符串在嵌入空间中彼此更接近,而不相关的字符串则相距较远。这一特性,加上快速向量搜索算法的存在,意味着嵌入可用于实现高效的知识检索。具体而言,文本语料库可以分割成多个块,每个块都可以被嵌入并存储。随后,给定的查询也可以被嵌入,并通过向量搜索来找到与该查询最相关的语料库中的文本块(即在嵌入空间中最为接近的块)。


在 OpenAI Cookbook 中可以找到示例实现。参见策略“指导模型利用检索到的知识来回答查询”,了解如何使用知识检索来降低模型捏造错误事实的可能性。


语言模型无法独立准确执行算术或复杂计算。当需要此类功能时,可指示模型编写并运行代码,而非自行计算。具体而言,可指导模型将待执行代码置于特定格式中,如三重反引号内。输出产生后,代码可被提取并执行。最后,如有必要,代码执行引擎(例如 Python 解释器)的输出可作为输入,供模型响应下一查询。

 系统

你可以通过将 Python 代码包含在三个反引号中来编写和执行它,例如:```代码放在这里```。使用此方法进行计算。
 源文本:USER 翻译文本:用户

找出以下多项式的所有实值根:3*x^5 - 5*x^4 - 3*x^3 - 7*x - 10。
 在 Playground 中打开


代码执行的另一个良好应用场景是调用外部 API。如果模型被正确指导如何使用 API,它就能编写利用该 API 的代码。通过提供文档和/或代码示例展示如何使用 API,可以指导模型学习 API 的使用方法。

 系统

你可以通过将 Python 代码包含在三个反引号中来编写和执行它。同时请注意,你还可以使用以下模块帮助用户向他们的朋友发送消息: 源文本:```python 翻译文本: 导入消息 ```message.write(to="John", message="嘿,下班后想见个面吗?")```
 在 Playground 中打开


警告:执行模型生成的代码本身并不安全,任何试图进行此操作的应用程序都应采取预防措施。特别是,需要一个沙盒化的代码执行环境来限制不可信代码可能造成的损害。


Chat Completions API 支持在请求中传递函数描述列表,使模型能够根据提供的模式生成函数参数。生成的函数参数以 JSON 格式通过 API 返回,可用于执行函数调用。函数调用的输出随后可反馈到下一个请求中的模型,以闭合循环。这是使用 OpenAI 模型调用外部函数的首选方式。欲了解更多详情,请参阅我们的文本生成入门指南中的函数调用部分及 OpenAI Cookbook 中的更多函数调用示例。


有时很难判断一个变化——比如新指令或新设计——是使你的系统变得更好还是更糟。观察几个例子可能会暗示哪种更好,但样本量小时,很难区分是真正的改进还是偶然的好运。也许这个变化对某些输入的性能有帮助,但对其他输入却有损害。


评估程序(或“评估”)对于优化系统设计非常有用。良好的评估应具备以下特点:


  • 代表现实世界使用(或至少多样)

  • 包含众多测试案例以增强统计效力(参见下表指南)

  • 易于自动化或重复
 检测差异
所需样本量以达到 95%的置信度
30%~10
10%~100
3%~1,000
1%~10,000


输出评估可由计算机、人类或两者结合完成。计算机能通过客观标准(如单选题答案)自动化评估,也能处理一些主观或模糊标准,此时模型输出通过其他模型查询进行评价。OpenAI Evals 是一个开源软件框架,提供创建自动化评估的工具。


基于模型的评估在存在多种可能的高质量输出时(例如,对于长答案问题)可能很有用。模型评估与需要人工评估之间的界限是模糊的,并且随着模型能力的增强,这一界限也在不断变化。我们鼓励进行实验,以了解基于模型的评估在您的用例中能发挥多大作用。


假设已知问题的正确答案应参考一组特定已知事实。那么我们可以使用模型查询来统计答案中包含了多少所需事实。


例如,使用以下系统消息:

 系统

你将获得由三重引号分隔的文本,该文本应是某个问题的答案。请检查以下信息是否直接包含在答案中: 尼尔·阿姆斯特朗是第一个在月球上行走的人。 尼尔·阿姆斯特朗首次踏上月球的日子是 1969 年 7 月 21 日。 对于这些点中的每一个,执行以下步骤: 1 - 重申观点。 2 - 提供一个与该观点最接近的答案出处。 3 - 考虑一下,如果一个不了解该主题的人阅读了这段引文,他是否能直接推断出要点。在做出决定之前,请解释为何能或为何不能。 4 - 如果第 3 题的答案是“是”,则写“是”,否则写“否”。 最后,统计有多少个“是”的回答,并将该计数表示为 {"count": <此处插入计数> }。


这里有一个同时满足两个条件的示例输入:

 系统

源文本:<插入上述系统消息> 翻译文本:
 源文本:USER 翻译文本:用户

尼尔·阿姆斯特朗因成为第一个踏上月球的人类而闻名。这一历史性事件发生在 1969 年 7 月 21 日,正值阿波罗 11 号任务期间。
 在 Playground 中打开


这里有一个示例输入,仅满足一个条件:

 系统

源文本:<插入上述系统消息> 翻译文本:
 源文本:USER 翻译文本:用户

尼尔·阿姆斯特朗在踏出登月舱的那一刻创造了历史,成为第一个在月球上行走的人。
 在 Playground 中打开


这里有一个输入示例,其中没有任何一个得到满足:

 系统

源文本:<插入上述系统消息> 翻译文本:
 源文本:USER 翻译文本:用户

1969 年夏,一场壮丽的航行, 赏析:这句翻译简洁明了地传达了原文的意境,“1969 年夏”准确对应了“In the summer of '69”,而“一场壮丽的航行”则生动地描绘了“a voyage grand”的宏伟场景,整体上保持了原文的诗意和历史感 阿波罗 11 号,勇如传说之手。 阿姆斯特朗迈出一步,历史徐徐展开, 他说:“一小步,”为了一个新世界。
 在 Playground 中打开


此类基于模型的评估存在多种可能的变体。考虑以下变种:它不仅追踪候选答案与标准答案之间的重叠程度,还追踪候选答案是否与标准答案的任何部分相矛盾。

 系统

按照以下步骤回应用户输入。在继续之前,完整重述每一步,例如:“步骤 1:分析原因...”。 步骤 1:逐步推理提交的答案与专家答案之间的信息关系,判断它们是:不相交、相等、子集、超集,还是存在重叠(即有交集但非子集/超集)。 步骤 2:逐步推理提交的答案是否与专家答案的任何方面相矛盾。 步骤 3:输出一个结构如下的 JSON 对象:{"重叠类型": "不相交" 或 "相等" 或 "子集" 或 "超集" 或 "部分重叠", "矛盾": 真 或 假}


这里有一个示例输入,其答案虽不达标,但并未与专家答案相悖:

 系统

源文本:<插入上述系统消息> 翻译文本:
 源文本:USER 翻译文本:用户

问题:尼尔·阿姆斯特朗因何事件最为著名,该事件发生于哪一天?假设为 UTC 时间。 提交的答案:“难道他没有在月球上行走或者类似的事情吗?” 专家解答:尼尔·阿姆斯特朗最著名的成就是成为第一个在月球上行走的人。这一历史性事件发生在 1969 年 7 月 21 日。
 在 Playground 中打开


这里有一个示例输入,其答案与专家答案直接相悖:

 系统

源文本:<插入上述系统消息> 翻译文本:
 源文本:USER 翻译文本:用户

问题:尼尔·阿姆斯特朗因何事件最为著名,该事件发生在哪一天?假设为 UTC 时间。 翻译文本:尼尔·阿姆斯特朗最著名的事件是 1969 年 7 月 20 日(UTC 时间)的阿波罗 11 号登月任务,他成为第一个踏上月球表面的人。 1969 年 7 月 21 日,尼尔·阿姆斯特朗成为继巴兹·奥尔德林之后第二个踏上月球的人。 专家解答:尼尔·阿姆斯特朗最著名的成就是成为第一个在月球上行走的人。这一历史性事件发生在 1969 年 7 月 21 日。
 在 Playground 中打开


这里有一个示例输入,其正确答案还提供了比所需更多的细节:

 系统

源文本:<插入上述系统消息> 翻译文本:
 源文本:USER 翻译文本:用户

问题:尼尔·阿姆斯特朗最著名的事件是什么,以及它发生在哪一天?假设为 UTC 时间。 翻译文本:尼尔·阿姆斯特朗因其 1969 年 7 月 20 日的阿波罗 11 号登月任务而闻名,当时他成为第一个踏上月球表面的人。 大约在 1969 年 7 月 21 日 02:56 UTC,尼尔·阿姆斯特朗成为第一个踏上月球表面的人类,标志着人类历史上的一项重大成就。 专家解答:尼尔·阿姆斯特朗最著名的成就是成为第一个踏上月球的人。这一历史性事件发生在 1969 年 7 月 21 日。
 在 Playground 中打开


获取更多灵感,请访问 OpenAI Cookbook,其中包含示例代码,并提供第三方资源链接,如: