2025 年 4 月 14 日

在应用程序接口中引入 GPT-4.1

全新系列的 GPT 机型在编码、指令跟随和长语境方面都有重大改进，而且我们还首次推出了纳米机型。

聆听文章

18:10

今天，我们将在 API 中推出三款新产品：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些型号的性能全面超越了 GPT-4o 和 GPT-4o mini，在编码和指令跟踪方面都有显著提升。它们还拥有更大的上下文窗口--支持多达 100 万个词组的上下文，并且能够更好地利用上下文，提高长语境理解能力。它们的特点是更新知识截止日期为 2024 年 6 月。

GPT-4.1 在以下行业标准测量方面表现出色：

Coding：GPT-4.1 在 SWE-bench Verified 中的得分率为 54.6%，提高了 21.6%_absover GPT-4.5 使其成为领先的编码模型。
跟随教学： 在 Scale 的 MultiChallenge 基准上，GPT-4.1 的得分率为 38.3%，比 GPT-4o 提高了 10.5%_abs 。
长语境： 在视频-MME （多模态长语境理解的基准）上，GPT-4.1 创造了新的先进成果，在长字幕类别中得分 72.0%，在无字幕类别中得分 6.7% 。0% ，比 GPT-4o 提高了 6.7%_abs 。

虽然基准测试提供了有价值的见解，但我们在训练这些模型时更注重实际应用。与开发人员社区的密切合作和伙伴关系使我们能够针对对他们的应用最重要的任务优化这些模型。

为此，GPT-4.1 型号系列以较低的成本提供了卓越的性能。这些型号在延迟曲线的每一点上都推动了性能的提升。

GPT-4.1 mini 是小型机型性能的重大飞跃，在许多基准测试中甚至超过了 GPT-4o。它在智能测试中达到或超过了 GPT-4o，同时将延迟降低了近一半，成本降低了 83%。

对于要求低延迟的任务，GPT-4.1 nano 是我们目前最快、最便宜的型号。它采用 100 万个令牌上下文窗口，体积小，性能卓越，MMLU 得分 80.1%，GPQA 得分 50.3%，Aider 多语言编码得分 9.8%，甚至高于 GPT-4o mini。它是分类或自动完成等任务的理想选择。

在指令跟踪可靠性和长上下文理解能力方面的这些改进，也使 GPT-4.1 模型在为代理（或可代表用户独立完成任务的系统）提供动力方面变得更加有效。当与诸如 Responses API 之类的基元相结合时，开发人员现在可以构建在实际软件工程、从大型文档中提取洞察力、以最少的手动操作解决客户请求以及其他复杂任务中更加有用和可靠的代理。

请注意，GPT-4.1 只能通过 API 提供。在 ChatGPT 中，指令跟踪、编码和智能方面的许多改进已逐步纳入最新版本的 GPT-4o，我们将继续在今后的版本中纳入更多改进。

我们还将开始在应用程序接口中淘汰 GPT-4.5 预览版，因为 GPT-4.1 能以更低的成本和延迟在许多关键功能上提供更好或类似的性能。GPT-4.5 预览版将在三个月后，即 2025 年 7 月 14 日关闭，以便开发人员有时间过渡。GPT-4.5 是推出的研究预览版，用于探索和试验大型计算密集型模型，我们从开发人员的反馈中学到了很多。我们将继续把您在 GPT-4.5 中表达的创造力、写作质量、幽默感和细微差别延续到未来的 API 模型中。

下面，我们将介绍 GPT-4.1 在多个基准测试中的表现，以及来自 Windsurf、Qodo、Hex、Blue J、Thomson Reuters 和 Carlyle 等 alpha 测试者的示例，这些示例展示了 GPT-4.1 在特定领域任务的生产中的表现。

编码

在各种编码任务方面，GPT-4.1 都明显优于 GPT-4o，包括代理解决编码任务、前端编码、减少无关编辑、可靠遵循 diff 格式、确保工具使用的一致性等。

SWE-bench Verified 是衡量真实世界软件工程技能的标准，GPT-4.1 完成了 54.6% 的任务，而 GPT-4o (2024-11-20) 只完成了 33.2%。这反映了学生在探索代码库、完成任务以及生成既能运行又能通过测试的代码等方面的能力有所提高。

For SWE-bench Verified, 模型会得到代码库和问题描述，并且必须生成补丁来解决问题。性能在很大程度上取决于所使用的提示和工具。为了帮助重现和理解我们的结果，我们在这里描述了 GPT-4.1 的设置。我们的得分忽略了 500 个问题中的 23 个问题，这些问题的解决方案无法在我们的基础架构上运行；如果保守地将这些问题的得分记为 0，那么 54.6% 的得分将变为 52.1%。

对于希望编辑大型文件的 API 开发人员来说，GPT-4.1 在跨格式的代码差异方面更加可靠。GPT-4.1 在 Aider 的多语言差异基准上的得分是 GPT-4o 的两倍多，甚至比 GPT-4.5 高出 8%_abs. 这项评估既是对各种编程语言编码能力的衡量，也是对模型生成整体和差异格式更改能力的衡量。我们对 GPT-4.1 进行了专门训练，使其更可靠地遵循差异格式，这样开发人员就可以只让模型输出已更改的行，而不是重写整个文件，从而节省成本和延迟。要获得最佳代码差异性能，请参考我们的提示指南。对于喜欢重写整个文件的开发人员，我们已将 GPT-4.1 的输出标记限制提高到 32,768 个标记（GPT-4o 为 16,384 个标记）。我们还建议使用预测输出来减少重写整个文件的延迟。

在 Aider 的多语言基准测试中，模型通过编辑源文件来解决 Exercism 中的编码练习，允许重试一次。整体 "格式要求模型重写整个文件，这可能既慢又费钱。diff "格式要求模型编写一系列搜索/替换块.

GPT-4.1 在前端编码方面也比 GPT-4o 有很大改进，能够创建功能更强、更美观的网络应用程序。在我们的正面比较中，80% 的情况下，付费人工分级人员更喜欢 GPT-4.1 的网站，而不是 GPT-4o。

提示： 制作一个闪存卡网络应用程序。用户应能够创建闪存卡、搜索现有闪存卡、复习闪存卡并查看已复习闪存卡的统计数据。预载十张包含印地语单词或短语及其英语翻译的卡片。复习界面：在复习界面，点击或按下空格键，卡片会以流畅的三维动画翻转，显示翻译内容。按箭头键可浏览卡片。搜索界面：搜索栏应在用户输入查询时动态提供结果列表。统计界面：统计页面应显示用户审阅卡片的数量和正确率。创建卡片界面：创建卡片页面应允许用户指定闪卡的正面和背面，并将其添加到用户的收藏中。每个界面都应可在侧边栏中访问。生成单页 React 应用程序（将所有样式放入内联）。

GPT-4o

GPT-4.1

除上述基准外，GPT-4.1 还能更可靠地遵循格式，减少无关编辑。在我们的内部评估中，代码的无关编辑从 GPT-4o 的 9% 下降到 GPT-4.1 的 2%。

真实案例

Windsurf：GPT-4.1 在 Windsurf 内部编码基准上的得分比 GPT-4o 高 60%，这与代码更改在首次审核时被接受的频率密切相关。他们的用户指出，GPT-4.1 的工具调用效率提高了 30%，重复不必要的编辑或以过窄的增量步骤读取代码的可能性降低了约 50%。这些改进为工程团队带来了更快的迭代速度和更顺畅的工作流程。

Qodo：Qodo 使用受其微调基准启发的方法，就从 GitHub 拉取请求中生成高质量代码审查对 GPT-4.1 和其他领先模型进行了正面测试。在具有相同提示和条件的 200 个有意义的真实拉取请求中，他们发现 GPT-4.1 在 55% 的情况下产生了更好的建议。值得注意的是，他们发现 GPT-4.1 在精确性（知道何时不提出建议）和全面性（在必要时提供全面分析）方面都表现出色，同时还能保持对真正关键问题的关注。

指令如下

GPT-4.1 能更可靠地跟踪指令，我们在各种指令跟踪评估中都测出了显著的改进。

我们开发了一个内部评估系统，用于跟踪模型在多个维度和多个关键类别中的表现，其中包括：教学跟踪：

格式如下。 提供指定模型响应自定义格式的说明，例如 XML、YAML、Markdown 等。
否定指令。 指定模型应避免的行为。(例如："不要要求用户联系支持部门"）指定模型应避免的行为。
有序指令。 提供一组模型必须按照给定顺序执行的指令。(例如："首先询问用户的姓名，然后询问他们的电子邮件"）提供一组模型必须按照给定顺序遵循的指令。
内容要求。 输出包含特定信息的内容。(例如："在编写营养计划时，始终包含蛋白质的含量"）输出包含特定信息的内容。
排序。 以特定方式对输出排序。(例如："按人口数量对响应排序"）
过度自信。 如果所请求的信息不可用，或请求不属于特定类别，则指示模型说 "我不知道 "或类似的话。(例如："如果您不知道答案，请提供支持联系人电子邮件"）

这些类别是开发人员就以下哪些方面的指导与他们最相关、最重要而提出的反馈意见的结果。在每个类别中，我们将提示分为简单、中等和困难三种。与 GPT-4o 相比，GPT-4.1 在困难提示方面的改进尤为明显。

我们的内部指令跟踪评估基于真实的开发人员使用案例和反馈，涵盖了不同复杂程度的任务，以及格式、冗长度、长度等方面的说明。

多轮指令跟踪对许多开发人员来说都至关重要--这对模型在深入对话时保持连贯性以及跟踪用户之前告诉它的内容非常重要。我们已经对 GPT-4.1 进行了训练，使其能够更好地从对话中的过往信息中提取信息，从而实现更自然的对话。来自 Scale 的 MultiChallenge 基准是衡量这一能力的有用指标，GPT-4.1 的表现比 GPT-4o._abs 好 10.5%。

在 "多重挑战" 中，模型面临的挑战是在多轮对话中正确使用以前信息中的四类信息。

GPT-4.1 在 IFEval 中的得分率也高达 87.4%，而 GPT-4o 为 81.0%。IFEval 使用带有可验证说明的提示（例如，指定内容长度或避免某些术语或格式）。

在 IFEval 中，模型必须生成符合各种指令的答案。

更好地遵循指令可使现有的应用程序更加可靠，并使以前因可靠性差而受到限制的新应用程序成为可能。早期的测试人员注意到，GPT-4.1 的字面意思可能会比较直白，因此我们建议在提示时要明确具体。有关 GPT-4.1 提示最佳实践的更多信息，请参阅提示指南。

真实案例

Blue J：在 Blue J 最具挑战性的真实世界税务场景的内部基准测试中，GPT-4.1 的准确性比 GPT-4o 高出 53%。准确率的跃升是系统性能和用户满意度的关键，凸显了 GPT-4.1 对复杂法规的理解能力以及在长时间环境下遵循细微指令的能力得到了提高。对于 Blue J 用户而言，这意味着更快、更可靠的税务研究以及更多时间用于高价值的咨询工作。

Hex：GPT-4.1 在 Hex 最具挑战性的 SQL 评估集上实现了近 2 倍的改进，在指令遵循和语义理解方面取得了显著提高。该模型在从大型、模糊的模式中选择正确的表方面更加可靠--这是一个直接影响整体准确性的上游决策点，很难通过提示来调整。对于 Hex 来说，这显著减少了人工调试，并加快了生产级工作流的进程。

长语境

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 可以处理多达 100 万个上下文标记，而以前的 GPT-4o 型号只能处理 12.8 万个标记。100 万个标记相当于整个 React 代码库的 8 份副本，因此长上下文非常适合处理大型代码库或大量长文档。

我们对 GPT-4.1 进行了训练，使其能够在 100 万的上下文长度范围内可靠地关注信息。此外，我们还对 GPT-4.1 进行了训练，使其在注意相关文本和忽略长、短上下文长度的干扰项方面，比 GPT-4o 更加可靠。对于法律、编码、客户支持和许多其他领域的应用而言，长语境理解是一项至关重要的能力。

下面，我们展示了 GPT-4.1 在上下文窗口内不同位置检索一小段隐藏信息（"针"）的能力。GPT-4.1 在所有位置和所有上下文长度上都能始终如一地准确检索出 "针"，直至 100 万个标记。无论输入信息的位置如何，它都能有效地提取出与当前任务相关的细节。

GPT-4.1 Needle in a Haystack accuracy graph

在我们的内部 "大海捞针 "评估中，GPT-4.1、GPT-4.1 mini 和 GPT 4.1 nano 都能检索到上下文中所有位置的针，最高可达 1M。

然而，现实世界中很少有任务能像检索单个显而易见的答案那样简单明了。我们发现用户往往需要我们的模型来检索和理解多个信息片段，并理解这些片段之间的关系。为了展示这种能力，我们正在开源一项新的评估：OpenAI-MRCR（多轮核心参照）。

OpenAI-MRCR 测试了该模型查找和区分隐藏在上下文中的多根针的能力。评估包括用户与助手之间的多轮合成对话，其中用户要求就某个主题写一篇文章，例如 "写一首关于貘的诗 "或 "写一篇关于岩石的博文"。然后，我们在整个上下文中插入两个、四个或八个相同的请求。然后，模型必须检索与特定实例相对应的响应（例如，"给我第三首关于貘的诗"）。

挑战来自于这些请求与其他上下文之间的相似性--模型很容易被细微的差别所误导，例如一个关于貘的短篇故事而不是一首诗，或者一首关于青蛙的诗而不是貘。我们发现，当上下文长度达到 128K 字节时，GPT-4.1 的性能优于 GPT-4o，即使达到 100 万字节，也能保持强劲的性能。

但是，即使对于先进的推理模型来说，这项任务仍然十分艰巨。我们正在共享 eval 数据集，以鼓励在现实世界中进一步开展长语境检索工作。

在 OpenAI-MRCR 中，模型必须回答一个问题，其中涉及在散布于干扰物中的 2、4 或 8 个用户提示之间进行消歧。

我们还将发布 Graphwalks ，这是一个用于评估多跳长上下文推理的数据集。长上下文的许多开发人员用例都需要在上下文中进行多次逻辑跳转，例如在编写代码时在多个文件之间跳转，或者在回答复杂的法律问题时交叉引用文档。

理论上，模型（甚至是人类）只需通过一次或通读提示，就能解决 OpenAI-MRCR 问题，但 Graphwalks 的设计要求在上下文中的多个位置进行推理，因此无法按顺序解决。

Graphwalks 会在上下文窗口中填充一个由十六进制哈希值组成的有向图，然后要求模型从图中的随机节点开始执行广度优先搜索（BFS）。然后，我们要求它返回达到一定深度的所有节点。GPT-4.1 在这一基准测试中取得了 61.7% 的准确率，与 o1 的性能不相上下，并轻松击败了 GPT-4o。

在 Graphwalks 中，要求模型从大型图中的随机节点开始执行广度优先搜索。

基准测试并不能说明全部问题，因此我们与 alpha 合作伙伴合作，测试 GPT-4.1 在实际长环境任务中的性能。

真实案例

汤森路透：汤森路透使用其专业级法律工作人工智能助手 CoCounsel 测试了 GPT-4.1。与 GPT-4o 相比，在使用 GPT-4.1 进行内部长上下文基准测试时，他们能够将多文档审查的准确性提高 17%--这是衡量 CoCounsel 处理涉及多个冗长文档的复杂法律工作流程能力的重要标准。特别是，他们发现该模型在保持不同来源的上下文以及准确识别文件之间的细微关系（如冲突条款或额外的补充上下文）方面非常可靠，而这些任务对于法律分析和决策至关重要。

Carlyle：Carlyle 使用 GPT-4.1 在多个冗长文档（包括 PDF、Excel 文件和其他复杂格式）中准确提取细粒度财务数据。根据他们的内部评估，GPT-4.1 在从具有密集数据的超大型文档中进行检索时的性能提高了 50%，并且是首个成功克服其他可用模型的关键局限性的模型，这些局限性包括大海捞针式检索、中间丢失错误和跨文档的多跳推理。

除了模型的性能和准确性，开发人员还需要快速响应的模型，以跟上并满足用户的需求。我们已经改进了推理堆栈，以缩短到第一个标记的时间，通过及时缓存，您可以进一步缩短延迟时间，同时节约成本。在我们的初步测试中，GPT-4.1 的 p95 延迟到第一个标记的时间大约为 15 秒（128,000 个上下文标记），而 100 万个上下文标记的延迟时间则长达半分钟。GPT-4.1 mini 和 nano 则更快，例如，GPT-4.1 nano 在 128,000 个输入标记的查询中，通常在五秒内返回第一个标记。

愿景

GPT-4.1 系列在图像理解方面异常强大，尤其是 GPT-4.1 mini 代表着一个重大的飞跃，经常在图像基准测试中击败 GPT-4o。

在 MMMU 中，模型会回答包含图表、示意图、地图等的问题（注意：即使不包含图片，许多答案仍可根据上下文推断或猜测）。

在 MathVista 中，模型解决可视化数学任务。

在 CharXiv-Reasoning 中，一个模型回答了有关科学论文图表的问题。

长语境性能对于处理长视频等多模态用例也很重要。在视频-MME（无字幕长视频）中，模型根据 30-60 分钟的无字幕长视频回答选择题。GPT-4.1 实现了最先进的性能，得分率为 72.0%，高于 GPT-4o 的 65.3%。

在视频-MME 中，模特根据 30-60 分钟长的无字幕视频回答选择题。

定价

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 现已提供给所有开发人员。

对于中位数查询，GPT-4.1 的价格比 GPT-4o 便宜 26%，而 GPT-4.1 nano 是我们有史以来最便宜、速度最快的模型。对于重复传递相同上下文的查询，我们将这些新机型的及时缓存折扣提高到 75%（之前为 50%）。最后，我们提供长上下文请求，除标准的每个令牌成本外，不收取任何额外费用。

模型 (价格以每 100 万代币为单位）	输入	缓存输入	输出	混合定价*
gpt-4.1	$2.00	$0.50	$8.00	$1.84
gpt-4.1-mini	$0.40	$0.10	$1.60	$0.42
gpt-4.1-nano	$0.10	$0.025	$0.40	$0.12

*基于典型的输入/输出和高速缓存比率。

这些模型可用于我们的批量 API，并享受额外的 50% 定价折扣。

结论

GPT-4.1 在人工智能的实际应用方面迈出了重要一步。通过密切关注现实世界中开发人员的需求，从编码到指令遵循和长语境理解，这些模型为构建智能系统和复杂的代理应用提供了新的可能性。开发人员社区的创造力不断激发着我们的灵感，我们很期待看到您使用 GPT-4.1 构建的成果。

附录

学业成绩、编码、指令遵循、长情境、视力和功能调用评估的完整结果列表如下。

学术知识

类别	GPT-4.1	GPT-4.1 微型	GPT-4.1 纳米	GPT-4o (2024-11-20)	GPT-4o mini	OpenAI o1 (高)	OpenAI o3-mini (高)	GPT-4.5
爱'24	48.1%	49.6%	29.4%	13.1%	8.6%	74.3%	87.3%	36.7%
GPQA 钻石¹	66.3%	65.0%	50.3%	46.0%	40.2%	75.7%	77.2%	69.5%
MMLU	90.2%	87.5%	80.1%	85.7%	82.0%	91.8%	86.9%	90.8%
多语言 MLU	87.3%	78.5%	66.9%	81.4%	70.5%	87.7%	80.7%	85.1%

[1] 我们的 GPQA 实现使用模型而不是 regex 来提取答案。对于 GPT-4.1，差异为 <1%（无统计学意义），但对于 GPT-4o，模型提取显著提高了得分（~46% -> 54%）。

编码验证

类别	GPT-4.1	GPT-4.1 微型	GPT-4.1 纳米	GPT-4o (2024-11-20)	GPT-4o mini	OpenAI o1 (高)	OpenAI o3-mini (高)	GPT-4.5
SWE-bench 验证 ²	54.6%	23.6%	-	33.2%	8.7%	41.0%	49.3%	38.0%
SWE-Lancer	$176K (35.1%)	$165K (33.0%)	$77K (15.3%)	$163K (32.6%)	$116K (23.1%)	$160K (32.1%)	$90K (18.0%)	$186K (37.3%)
SWE-Lancer （IC-钻石子集）	$34K (14.4%)	$31K (13.1%)	$9K (3.7%)	$29K (12.4%)	$11K (4.8%)	$29K (9.7%)	$17K (7.4%)	$41K (17.4%)
Aider's polyglot: whole	51.6%	34.7%	9.8%	30.7%	3.6%	64.6%	66.7%	-
Aider's polyglot: diff	52.9%	31.6%	6.2%	18.2%	2.7%	61.7%	60.4%	44.9%

[2] 我们省略了 23/500 个无法在我们的基础架构上运行的问题。被省略的 23 个任务的完整列表是 'astropy__astropy-7606'、'astropy__astropy-8707'、'astropy__astropy-8872'、'django__django-10097'、'django__django-7530'、'matplotlib__matplotlib-20488'、'matplotlib__matplotlib-20676'、'matplotlib__matplotlib-20826'、'matplotlib__matplotlib-23299'、'matplotlib__matplotlib-24970'、'matplotlib__matplotlib-25479'、'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262',pytest-dev__pytest-7521'、'scikit-learn__scikit-learn-12973'、'sphinx-doc__sphinx-10466'、'sphinx-doc__sphinx-7462'、'sphinx-doc__sphinx-8265'和'sphinx-doc__sphinx-9367'。

评估后的指导

类别	GPT-4.1	GPT-4.1 微型	GPT-4.1 纳米	GPT-4o (2024-11-20)	GPT-4o mini	OpenAI o1 (高)	OpenAI o3-mini (高)	GPT-4.5
内部 API 指令如下（硬）	49.1%	45.1%	31.6%	29.2%	27.2%	51.3%	50.0%	54.0%
多重挑战	38.3%	35.8%	15.0%	27.8%	20.3%	44.9%	39.9%	43.8%
多重挑战（o3-迷你分级机）³	46.2%	42.2%	31.1%	39.9%	25.6%	52.9%	50.2%	50.1%
COLLIE	65.8%	54.6%	42.5%	50.2%	52.7%	95.3%	98.7%	72.3%
IFEval	87.4%	84.1%	74.5%	81.0%	78.4%	92.2%	93.9%	88.2%
多 IF	70.8%	67.0%	57.2%	60.9%	57.9%	77.9%	79.5%	70.8%

[3] 注：我们发现 MultiChallenge 中的默认评分器（GPT-4o）经常对模型回答评分失误。我们发现，将评分器换成推理模型（如 o3-mini）后，在我们检查过的样本中，评分的准确性明显提高。注：我们发现 MultiChallenge（GPT-4o）中的默认评分器经常对模型回答评分失误。我们发现，将评分器换成推理模型（如 o3-mini）后，在我们检查过的样本中，评分的准确性明显提高。出于与排行榜保持一致的考虑，我们将同时公布两组结果。

Long Context Evals

Category	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano	GPT-4o (2024-11-20)	GPT-4o mini	OpenAI o1 (high)	OpenAI o3-mini (high)	GPT-4.5
OpenAI-MRCR: 2 needle128k	57.2%	47.2%	36.6%	31.9%	24.5%	22.1%	18.7%	38.5%
OpenAI-MRCR: 2 needle 1M	46.3%	33.3%	12.0%	-	-	-	-	-
Graphwalks bfs <128k	61.7%	61.7%	25.0%	41.7%	29.0%	62.0%	51.0%	72.3%
Graphwalks bfs >128k	19.0%	15.0%	2.9%	-	-	-	-	-
Graphwalks parents <128k	58.0%	60.5%	9.4%	35.4%	12.6%	50.9%	58.3%	72.6%
Graphwalks parents >128k	25.0%	11.0%	5.6%	-	-	-	-	-

Vision Eval

Category	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano	GPT-4o (2024-11-20)	GPT-4o mini	OpenAI o1 (high)	OpenAI o3-mini (high)	GPT-4.5
MMMU	74.8%	72.7%	55.4%	68.7%	56.3%	77.6%	-	75.2%
MathVista	72.2%	73.1%	56.2%	61.4%	56.5%	71.8%	-	72.3%
CharXiv-R	56.7%	56.8%	40.5%	52.7%	36.8%	55.1%	-	55.4%
CharXiv-D	87.9%	88.4%	73.9%	85.3%	76.6%	88.9%	-	90.0%

Function Calling Eval

Category	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano	GPT-4o (2024-11-20)	GPT-4o mini	OpenAI o1 (high)	OpenAI o3-mini (high)	GPT-4.5
ComplexFuncBench	65.5%	49.3%	0.6%	66.5%	38.6%	47.6%	17.6%	63.0%
Taubench airline⁴	49.4%	36.0%	14.0%	42.8%	22.0%	50.0%	32.4%	50.0%
Taubench retail^{4, 5}	68.0% (73.6%)	55.8% (65.4%)	22.6% (23.5%)	60.3%	44.0%	70.8%	57.6%	68.4%

[4] tau-bench eval numbers are averaged across 5 runs to reduce variance, and run without any custom tools or prompting.

[5] Numbers in parentheses represent Tau-bench results when using GPT-4.1 as the user model, rather than GPT-4o. We’ve found that, since GPT-4.1 is better at instruction following, it is better able to perform as the user, and so results in more successful trajectories. We believe this represents the true performance of the evaluated model on the benchmark.

Livestream replay

Author

OpenAI

Research leads

Ananya Kumar, Jiahui Yu, John Hallman, Michelle Pokrass

Research core contributors

Adam Goucher, Adi Ganesh, Bowen Cheng, Brandon McKinzie, Brian Zhang, Chris Koch, Colin Wei, David Medina, Edmund Wong, Erin Kavanaugh, Florent Bekerman, Haitang Hu, Hongyu Ren, Ishaan Singal, Jamie Kiros, Jason Ai, Ji Lin, Jonathan Chien, Josh McGrath, Julian Lee, Julie Wang, Kevin Lu, Kristian Georgiev, Kyle Luther, Li Jing, Max Schwarzer, Miguel Castro, Nitish Keskar, Rapha Gontijo Lopes, Shengjia Zhao, Sully Chen, Suvansh Sanjeev, Taylor Gordon, Ted Sanders, Wenda Zhou, Yang Song, Yujia Xie, Yujia Jin, Zhishuai Zhang

Research contributors

Aditya Ramesh, Aiden Low, Alex Nichol, Andrei Gheorghe, Andrew Tulloch, Behrooz Ghorbani, Borys Minaiev, Brandon Houghton, Charlotte Cole, Chris Lu, Edmund Wong, Hannah Sheahan, Jacob Huh, James Qin, Jianfeng Wang, Jonathan Ward, Joseph Mo, Joyce Ruffell, Kai Chen, Karan Singhal, Karina Nguyen, Kenji Hata, Kevin Liu, Maja Trębacz, Matt Lim, Mikhail Pavlov, Ming Chen, Morgan Griffiths, Nat McAleese, Nick Stathas, Rajkumar Samuel, Ravi Teja Mullapudi, Rowan Zellers, Shengli Hu, Shuchao Bi, Spencer Papay, Szi‑chieh Yu, Yash Patil, Yufeng Zhang

Applied and scaling contributors

Adam Walker, Ali Kamali, Alvin Wan, Andy Wang, Ben Leimberger, Beth Hoover, Brian Yu, Charlie Jatt, Chen Ding, Cheng Chang, Daniel Kappler, Dinghua Li, Felipe Petroski Such, Janardhanan Vembunarayanan, Joseph Florencio, Kevin King, Larry Lv, Lin Yang, Linden Li, Manoli Liodakis, Mark Hudnall, Nikunj Handa, Olivier Godement, Ryszard Madej, Sean Chang, Sean Fitzgerald, Sherwin Wu, Siyuan Fu, Stanley Hsieh, Yunxing Dai

Sales, Marketing, Comms & Design

Andy Wood, Ashley Tyra, Cary Hudson, Dana Palmie, Jessica Shieh, Justin Wang, Karan Sekhri, Katie Kim, Kendal Simon, Laura Peng, Leher Pathak, Lindsay McCallum, Matt Nichols, Nick Pyne, Noah MacCallum, Oona Gleeson, Pranav Deshpande, Rishabh Aggarwal, Scott Ethersmith, Shaokyi Amdo, Stephen Gutierrez, Tabarak Khan, Terry Lee, Thomas Degry, Veit Moeller, Yara Khakbaz