2025 年 4 月 14 日

在应用程序接口中引入 GPT-4.1

全新系列的 GPT 机型在编码、指令跟随和长语境方面都有重大改进，而且我们还首次推出了纳米机型。

聆听文章

18:10

今天，我们将在 API 中推出三款新产品：GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些型号的性能全面超越了 GPT-4o 和 GPT-4o mini，在编码和指令跟踪方面都有显著提升。它们还拥有更大的上下文窗口--支持多达 100 万个词组的上下文，并且能够更好地利用上下文，提高长语境理解能力。它们的特点是更新知识截止日期为 2024 年 6 月。

GPT-4.1 在以下行业标准测量方面表现出色：

Coding：GPT-4.1 在 SWE-bench Verified 中的得分率为 54.6%，提高了 21.6%_absover GPT-4.5 使其成为领先的编码模型。
跟随教学： 在 Scale 的 MultiChallenge 基准上，GPT-4.1 的得分率为 38.3%，比 GPT-4o 提高了 10.5%_abs 。
长语境： 在视频-MME （多模态长语境理解的基准）上，GPT-4.1 创造了新的先进成果，在长字幕类别中得分 72.0%，在无字幕类别中得分 6.7% 。0% ，比 GPT-4o 提高了 6.7%_abs 。

虽然基准测试提供了有价值的见解，但我们在训练这些模型时更注重实际应用。与开发人员社区的密切合作和伙伴关系使我们能够针对对他们的应用最重要的任务优化这些模型。

为此，GPT-4.1 型号系列以较低的成本提供了卓越的性能。这些型号在延迟曲线的每一点上都推动了性能的提升。

GPT-4.1 mini 是小型机型性能的重大飞跃，在许多基准测试中甚至超过了 GPT-4o。它在智能测试中达到或超过了 GPT-4o，同时将延迟降低了近一半，成本降低了 83%。

对于要求低延迟的任务，GPT-4.1 nano 是我们目前最快、最便宜的型号。它采用 100 万个令牌上下文窗口，体积小，性能卓越，MMLU 得分 80.1%，GPQA 得分 50.3%，Aider 多语言编码得分 9.8%，甚至高于 GPT-4o mini。它是分类或自动完成等任务的理想选择。

在指令跟踪可靠性和长上下文理解能力方面的这些改进，也使 GPT-4.1 模型在为代理（或可代表用户独立完成任务的系统）提供动力方面变得更加有效。当与诸如 Responses API 之类的基元相结合时，开发人员现在可以构建在实际软件工程、从大型文档中提取洞察力、以最少的手动操作解决客户请求以及其他复杂任务中更加有用和可靠的代理。

请注意，GPT-4.1 只能通过 API 提供。在 ChatGPT 中，指令跟踪、编码和智能方面的许多改进已逐步纳入最新版本的 GPT-4o，我们将继续在今后的版本中纳入更多改进。

我们还将开始在应用程序接口中淘汰 GPT-4.5 预览版，因为 GPT-4.1 能以更低的成本和延迟在许多关键功能上提供更好或类似的性能。GPT-4.5 预览版将在三个月后，即 2025 年 7 月 14 日关闭，以便开发人员有时间过渡。GPT-4.5 是推出的研究预览版，用于探索和试验大型计算密集型模型，我们从开发人员的反馈中学到了很多。我们将继续把您在 GPT-4.5 中表达的创造力、写作质量、幽默感和细微差别延续到未来的 API 模型中。

下面，我们将介绍 GPT-4.1 在多个基准测试中的表现，以及来自 Windsurf、Qodo、Hex、Blue J、Thomson Reuters 和 Carlyle 等 alpha 测试者的示例，这些示例展示了 GPT-4.1 在特定领域任务的生产中的表现。

编码

在各种编码任务方面，GPT-4.1 都明显优于 GPT-4o，包括代理解决编码任务、前端编码、减少无关编辑、可靠遵循 diff 格式、确保工具使用的一致性等。

SWE-bench Verified 是衡量真实世界软件工程技能的标准，GPT-4.1 完成了 54.6% 的任务，而 GPT-4o (2024-11-20) 只完成了 33.2%。这反映了学生在探索代码库、完成任务以及生成既能运行又能通过测试的代码等方面的能力有所提高。

For SWE-bench Verified, 模型会得到代码库和问题描述，并且必须生成补丁来解决问题。性能在很大程度上取决于所使用的提示和工具。为了帮助重现和理解我们的结果，我们在这里描述了 GPT-4.1 的设置。我们的得分忽略了 500 个问题中的 23 个问题，这些问题的解决方案无法在我们的基础架构上运行；如果保守地将这些问题的得分记为 0，那么 54.6% 的得分将变为 52.1%。

对于希望编辑大型文件的 API 开发人员来说，GPT-4.1 在跨格式的代码差异方面更加可靠。GPT-4.1 在 Aider 的多语言差异基准上的得分是 GPT-4o 的两倍多，甚至比 GPT-4.5 高出 8%_abs. 这项评估既是对各种编程语言编码能力的衡量，也是对模型生成整体和差异格式更改能力的衡量。我们对 GPT-4.1 进行了专门训练，使其更可靠地遵循差异格式，这样开发人员就可以只让模型输出已更改的行，而不是重写整个文件，从而节省成本和延迟。要获得最佳代码差异性能，请参考我们的提示指南。对于喜欢重写整个文件的开发人员，我们已将 GPT-4.1 的输出标记限制提高到 32,768 个标记（GPT-4o 为 16,384 个标记）。我们还建议使用预测输出来减少重写整个文件的延迟。

在 Aider 的多语言基准测试中，模型通过编辑源文件来解决 Exercism 中的编码练习，允许重试一次。整体 "格式要求模型重写整个文件，这可能既慢又费钱。diff "格式要求模型编写一系列搜索/替换块.

GPT-4.1 在前端编码方面也比 GPT-4o 有很大改进，能够创建功能更强、更美观的网络应用程序。在我们的正面比较中，80% 的情况下，付费人工分级人员更喜欢 GPT-4.1 的网站，而不是 GPT-4o。

提示： 制作一个闪存卡网络应用程序。用户应能够创建闪存卡、搜索现有闪存卡、复习闪存卡并查看已复习闪存卡的统计数据。预载十张包含印地语单词或短语及其英语翻译的卡片。复习界面：在复习界面，点击或按下空格键，卡片会以流畅的三维动画翻转，显示翻译内容。按箭头键可浏览卡片。搜索界面：搜索栏应在用户输入查询时动态提供结果列表。统计界面：统计页面应显示用户审阅卡片的数量和正确率。创建卡片界面：创建卡片页面应允许用户指定闪卡的正面和背面，并将其添加到用户的收藏中。每个界面都应可在侧边栏中访问。生成单页 React 应用程序（将所有样式放入内联）。

GPT-4o

GPT-4.1

除上述基准外，GPT-4.1 还能更可靠地遵循格式，减少无关编辑。在我们的内部评估中，代码的无关编辑从 GPT-4o 的 9% 下降到 GPT-4.1 的 2%。

真实案例

Windsurf：GPT-4.1 在 Windsurf 内部编码基准上的得分比 GPT-4o 高 60%，这与代码更改在首次审核时被接受的频率密切相关。他们的用户指出，GPT-4.1 的工具调用效率提高了 30%，重复不必要的编辑或以过窄的增量步骤读取代码的可能性降低了约 50%。这些改进为工程团队带来了更快的迭代速度和更顺畅的工作流程。

Qodo：Qodo 使用受其微调基准启发的方法，就从 GitHub 拉取请求中生成高质量代码审查对 GPT-4.1 和其他领先模型进行了正面测试。在具有相同提示和条件的 200 个有意义的真实拉取请求中，他们发现 GPT-4.1 在 55% 的情况下产生了更好的建议。值得注意的是，他们发现 GPT-4.1 在精确性（知道何时不提出建议）和全面性（在必要时提供全面分析）方面都表现出色，同时还能保持对真正关键问题的关注。

指令如下

GPT-4.1 能更可靠地跟踪指令，我们在各种指令跟踪评估中都测出了显著的改进。

我们开发了一个内部评估系统，用于跟踪模型在多个维度和多个关键类别中的表现，其中包括：教学跟踪：

格式如下。 提供指定模型响应自定义格式的说明，例如 XML、YAML、Markdown 等。
否定指令。 指定模型应避免的行为。(例如："不要要求用户联系支持部门"）指定模型应避免的行为。
有序指令。 提供一组模型必须按照给定顺序执行的指令。(例如："首先询问用户的姓名，然后询问他们的电子邮件"）提供一组模型必须按照给定顺序遵循的指令。
内容要求。 输出包含特定信息的内容。(例如："在编写营养计划时，始终包含蛋白质的含量"）输出包含特定信息的内容。
排序。 以特定方式对输出排序。(例如："按人口数量对响应排序"）
过度自信。 如果所请求的信息不可用，或请求不属于特定类别，则指示模型说 "我不知道 "或类似的话。(例如："如果您不知道答案，请提供支持联系人电子邮件"）

这些类别是开发人员就以下哪些方面的指导与他们最相关、最重要而提出的反馈意见的结果。在每个类别中，我们将提示分为简单、中等和困难三种。与 GPT-4o 相比，GPT-4.1 在困难提示方面的改进尤为明显。

我们的内部指令跟踪评估基于真实的开发人员使用案例和反馈，涵盖了不同复杂程度的任务，以及格式、冗长度、长度等方面的说明。

多轮指令跟踪对许多开发人员来说都至关重要--这对模型在深入对话时保持连贯性以及跟踪用户之前告诉它的内容非常重要。我们已经对 GPT-4.1 进行了训练，使其能够更好地从对话中的过往信息中提取信息，从而实现更自然的对话。来自 Scale 的 MultiChallenge 基准是衡量这一能力的有用指标，GPT-4.1 的表现比 GPT-4o._abs 好 10.5%。

在 "多重挑战" 中，模型面临的挑战是在多轮对话中正确使用以前信息中的四类信息。

GPT-4.1 在 IFEval 中的得分率也高达 87.4%，而 GPT-4o 为 81.0%。IFEval 使用带有可验证说明的提示（例如，指定内容长度或避免某些术语或格式）。

在 IFEval 中，模型必须生成符合各种指令的答案。

更好地遵循指令可使现有的应用程序更加可靠，并使以前因可靠性差而受到限制的新应用程序成为可能。早期的测试人员注意到，GPT-4.1 的字面意思可能会比较直白，因此我们建议在提示时要明确具体。有关 GPT-4.1 提示最佳实践的更多信息，请参阅提示指南。

真实案例

Blue J：在 Blue J 最具挑战性的真实世界税务场景的内部基准测试中，GPT-4.1 的准确性比 GPT-4o 高出 53%。准确率的跃升是系统性能和用户满意度的关键，凸显了 GPT-4.1 对复杂法规的理解能力以及在长时间环境下遵循细微指令的能力得到了提高。对于 Blue J 用户而言，这意味着更快、更可靠的税务研究以及更多时间用于高价值的咨询工作。

Hex：GPT-4.1 在 Hex 最具挑战性的 SQL 评估集上实现了近 2 倍的改进，在指令遵循和语义理解方面取得了显著提高。该模型在从大型、模糊的模式中选择正确的表方面更加可靠--这是一个直接影响整体准确性的上游决策点，很难通过提示来调整。对于 Hex 来说，这显著减少了人工调试，并加快了生产级工作流的进程。

长语境

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 可以处理多达 100 万个上下文标记，而以前的 GPT-4o 型号只能处理 12.8 万个标记。100 万个标记相当于整个 React 代码库的 8 份副本，因此长上下文非常适合处理大型代码库或大量长文档。

我们对 GPT-4.1 进行了训练，使其能够在 100 万的上下文长度范围内可靠地关注信息。此外，我们还对 GPT-4.1 进行了训练，使其在注意相关文本和忽略长、短上下文长度的干扰项方面，比 GPT-4o 更加可靠。对于法律、编码、客户支持和许多其他领域的应用而言，长语境理解是一项至关重要的能力。

下面，我们展示了 GPT-4.1 在上下文窗口内不同位置检索一小段隐藏信息（"针"）的能力。GPT-4.1 在所有位置和所有上下文长度上都能始终如一地准确检索出 "针"，直至 100 万个标记。无论输入信息的位置如何，它都能有效地提取出与当前任务相关的细节。

GPT-4.1 Needle in a Haystack accuracy graph

在我们的内部 "大海捞针 "评估中，GPT-4.1、GPT-4.1 mini 和 GPT 4.1 nano 都能检索到上下文中所有位置的针，最高可达 1M。

然而，现实世界中很少有任务能像检索单个显而易见的答案那样简单明了。我们发现用户往往需要我们的模型来检索和理解多个信息片段，并理解这些片段之间的关系。为了展示这种能力，我们正在开源一项新的评估：OpenAI-MRCR（多轮核心参照）。

OpenAI-MRCR 测试了该模型查找和区分隐藏在上下文中的多根针的能力。评估包括用户与助手之间的多轮合成对话，其中用户要求就某个主题写一篇文章，例如 "写一首关于貘的诗 "或 "写一篇关于岩石的博文"。然后，我们在整个上下文中插入两个、四个或八个相同的请求。然后，模型必须检索与特定实例相对应的响应（例如，"给我第三首关于貘的诗"）。

挑战来自于这些请求与其他上下文之间的相似性--模型很容易被细微的差别所误导，例如一个关于貘的短篇故事而不是一首诗，或者一首关于青蛙的诗而不是貘。我们发现，当上下文长度达到 128K 字节时，GPT-4.1 的性能优于 GPT-4o，即使达到 100 万字节，也能保持强劲的性能。

但是，即使对于先进的推理模型来说，这项任务仍然十分艰巨。我们正在共享 eval 数据集，以鼓励在现实世界中进一步开展长语境检索工作。

在 OpenAI-MRCR 中，模型必须回答一个问题，其中涉及在散布于干扰物中的 2、4 或 8 个用户提示之间进行消歧。

我们还将发布 Graphwalks ，这是一个用于评估多跳长上下文推理的数据集。长上下文的许多开发人员用例都需要在上下文中进行多次逻辑跳转，例如在编写代码时在多个文件之间跳转，或者在回答复杂的法律问题时交叉引用文档。

理论上，模型（甚至是人类）只需通过一次或通读提示，就能解决 OpenAI-MRCR 问题，但 Graphwalks 的设计要求在上下文中的多个位置进行推理，因此无法按顺序解决。

Graphwalks 会在上下文窗口中填充一个由十六进制哈希值组成的有向图，然后要求模型从图中的随机节点开始执行广度优先搜索（BFS）。然后，我们要求它返回达到一定深度的所有节点。GPT-4.1 在这一基准测试中取得了 61.7% 的准确率，与 o1 的性能不相上下，并轻松击败了 GPT-4o。

在 Graphwalks 中，要求模型从大型图中的随机节点开始执行广度优先搜索。

Benchmarks don’t tell the full story, so we worked with alpha partners to test the performance of GPT‑4.1 on their real-world long context tasks.

Real world examples

Thomson Reuters:⁠(opens in a new window) Thomson Reuters tested GPT‑4.1 with CoCounsel, their professional grade AI assistant for legal work. Compared to GPT‑4o, they were able to improve multi-document review accuracy by 17% when using GPT‑4.1 across internal long-context benchmarks—an essential measure of CoCounsel’s ability to handle complex legal workflows involving multiple, lengthy documents. In particular, they found the model to be highly reliable at maintaining context across sources and accurately identifying nuanced relationships between documents, such as conflicting clauses or additional supplementary context—tasks critical to legal analysis and decision-making.

Carlyle⁠(opens in a new window): Carlyle used GPT‑4.1 to accurately extract granular financial data across multiple, lengthy documents—including PDFs, Excel files, and other complex formats. Based on their internal evaluations, it performed 50% better on retrieval from very large documents with dense data and was the first model to successfully overcome key limitations seen with other available models, including needle-in-the-haystack retrieval, lost-in-the-middle errors, and multi-hop reasoning across documents.

In addition to model performance and accuracy, developers also need models that respond quickly to keep up with and meet users’ needs. We've improved our inference stack to reduce the time to first token, and with prompt caching, you can cut latency even further while saving on costs. In our initial testing, the p95 latency to first token for GPT‑4.1 is approximately fifteen seconds with 128,000 tokens of context, and up to half a minute for a million tokens of context. GPT‑4.1 mini and nano are faster, e.g., GPT‑4.1 nano most often returns the first token in less than five seconds for queries with 128,000 input tokens.

Vision

The GPT‑4.1 family is exceptionally strong at image understanding, with GPT‑4.1 mini in particular representing a significant leap forward, often beating GPT‑4o on image benchmarks.

In MMMU⁠(opens in a new window), a model answers questions containing charts, diagrams, maps, etc. (Note: even when the image is not included, many answers can still be inferred or guessed from context.)

In MathVista⁠(opens in a new window), a model solves visual mathematical tasks.

In CharXiv-Reasoning⁠(opens in a new window), a model answers questions about charts from scientific papers.

Long context performance is also important for multimodal use cases, such as processing long videos. In Video-MME⁠(opens in a new window) (long w/o subs), a model answers multiple choice questions based on 30-60 minute long videos with no subtitles. GPT‑4.1 achieves state-of-the-art performance, scoring 72.0%, up from 65.3% for GPT‑4o.

In Video-MME⁠(opens in a new window), a model answers multiple choice questions based on 30-60 minute long videos with no subtitles.

Pricing

GPT‑4.1, GPT‑4.1 mini, and GPT‑4.1 nano are available now to all developers.

Through efficiency improvements to our inference systems, we’ve been able to offer lower prices on the GPT‑4.1 series.GPT‑4.1 is 26% less expensive than GPT‑4o for median queries, and GPT‑4.1 nano is our cheapest and fastest model ever. For queries that repeatedly pass the same context, we are increasing the prompt caching discount to 75% (up from 50% previously) for these new models. Finally, we offer long context requests at no additional cost beyond the standard per-token costs.

Model (Prices are per 1M tokens)	Input	Cached input	Output	Blended Pricing*
gpt-4.1	$2.00	$0.50	$8.00	$1.84
gpt-4.1-mini	$0.40	$0.10	$1.60	$0.42
gpt-4.1-nano	$0.10	$0.025	$0.40	$0.12

*Based on typical input/output and cache ratios.

These models are available for use in our Batch API⁠(opens in a new window) at an additional 50% pricing discount.

Conclusion

GPT‑4.1 is a significant step forward in the practical application of AI. By focusing closely on real-world developer needs—ranging from coding to instruction-following and long context understanding—these models unlock new possibilities for building intelligent systems and sophisticated agentic applications. We’re continually inspired by the developer community’s creativity, and are excited to see what you build with GPT‑4.1.

Appendix

A full list of results across academic, coding, instruction following, long context, vision, and function calling evals can be found below.

Academic knowledge

Category	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano	GPT-4o (2024-11-20)	GPT-4o mini	OpenAI o1 (high)	OpenAI o3-mini (high)	GPT-4.5
AIME '24	48.1%	49.6%	29.4%	13.1%	8.6%	74.3%	87.3%	36.7%
GPQA Diamond¹	66.3%	65.0%	50.3%	46.0%	40.2%	75.7%	77.2%	69.5%
MMLU	90.2%	87.5%	80.1%	85.7%	82.0%	91.8%	86.9%	90.8%
Multilingual MMLU	87.3%	78.5%	66.9%	81.4%	70.5%	87.7%	80.7%	85.1%

[1] Our implementation of GPQA uses a model to extract the answer instead of regex. For GPT-4.1, the difference was <1% (not statistically significant), but for GPT-4o model extraction improves scores significantly (~46% -> 54%).

Coding evals

Category	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano	GPT-4o (2024-11-20)	GPT-4o mini	OpenAI o1 (high)	OpenAI o3-mini (high)	GPT-4.5
SWE-bench Verified²	54.6%	23.6%	-	33.2%	8.7%	41.0%	49.3%	38.0%
SWE-Lancer	$176K (35.1%)	$165K (33.0%)	$77K (15.3%)	$163K (32.6%)	$116K (23.1%)	$160K (32.1%)	$90K (18.0%)	$186K (37.3%)
SWE-Lancer (IC-Diamond subset)	$34K (14.4%)	$31K (13.1%)	$9K (3.7%)	$29K (12.4%)	$11K (4.8%)	$29K (9.7%)	$17K (7.4%)	$41K (17.4%)
Aider’s polyglot: whole	51.6%	34.7%	9.8%	30.7%	3.6%	64.6%	66.7%	-
Aider’s polyglot: diff	52.9%	31.6%	6.2%	18.2%	2.7%	61.7%	60.4%	44.9%

[2] We omit 23/500 problems that could not run on our infrastructure. The full list of 23 tasks omitted are 'astropy__astropy-7606', 'astropy__astropy-8707', 'astropy__astropy-8872', 'django__django-10097', 'django__django-7530', 'matplotlib__matplotlib-20488', 'matplotlib__matplotlib-20676', 'matplotlib__matplotlib-20826', 'matplotlib__matplotlib-23299', 'matplotlib__matplotlib-24970', 'matplotlib__matplotlib-25479', 'matplotlib__matplotlib-26342', 'psf__requests-6028', 'pylint-dev__pylint-6528', 'pylint-dev__pylint-7080', 'pylint-dev__pylint-7277', 'pytest-dev__pytest-5262', 'pytest-dev__pytest-7521', 'scikit-learn__scikit-learn-12973', 'sphinx-doc__sphinx-10466', 'sphinx-doc__sphinx-7462', 'sphinx-doc__sphinx-8265', and 'sphinx-doc__sphinx-9367'.

Instruction Following Eval

Category	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano	GPT-4o (2024-11-20)	GPT-4o mini	OpenAI o1 (high)	OpenAI o3-mini (high)	GPT-4.5
Internal API instruction following (hard)	49.1%	45.1%	31.6%	29.2%	27.2%	51.3%	50.0%	54.0%
MultiChallenge	38.3%	35.8%	15.0%	27.8%	20.3%	44.9%	39.9%	43.8%
MultiChallenge (o3-mini grader)³	46.2%	42.2%	31.1%	39.9%	25.6%	52.9%	50.2%	50.1%
COLLIE	65.8%	54.6%	42.5%	50.2%	52.7%	95.3%	98.7%	72.3%
IFEval	87.4%	84.1%	74.5%	81.0%	78.4%	92.2%	93.9%	88.2%
Multi-IF	70.8%	67.0%	57.2%	60.9%	57.9%	77.9%	79.5%	70.8%

[3] Note: we find that the default grader in MultiChallenge (GPT-4o) frequently mis-scores model responses. We find that swapping the grader to a reasoning model, like o3-mini, improves accuracy on grading significantly on samples we’ve inspected. For consistency reasons with the leaderboard, we’re publishing both sets of results..Note: we find that the default grader in MultiChallenge (GPT-4o) frequently mis-scores model responses. We find that swapping the grader to a reasoning model, like o3-mini, improves accuracy on grading significantly on samples we’ve inspected. For consistency reasons with the leaderboard, we’re publishing both sets of results.

Long Context Evals

Category	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano	GPT-4o (2024-11-20)	GPT-4o mini	OpenAI o1 (high)	OpenAI o3-mini (high)	GPT-4.5
OpenAI-MRCR: 2 needle128k	57.2%	47.2%	36.6%	31.9%	24.5%	22.1%	18.7%	38.5%
OpenAI-MRCR: 2 needle 1M	46.3%	33.3%	12.0%	-	-	-	-	-
Graphwalks bfs <128k	61.7%	61.7%	25.0%	41.7%	29.0%	62.0%	51.0%	72.3%
Graphwalks bfs >128k	19.0%	15.0%	2.9%	-	-	-	-	-
Graphwalks parents <128k	58.0%	60.5%	9.4%	35.4%	12.6%	50.9%	58.3%	72.6%
Graphwalks parents >128k	25.0%	11.0%	5.6%	-	-	-	-	-

Vision Eval

Category	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano	GPT-4o (2024-11-20)	GPT-4o mini	OpenAI o1 (high)	OpenAI o3-mini (high)	GPT-4.5
MMMU	74.8%	72.7%	55.4%	68.7%	56.3%	77.6%	-	75.2%
MathVista	72.2%	73.1%	56.2%	61.4%	56.5%	71.8%	-	72.3%
CharXiv-R	56.7%	56.8%	40.5%	52.7%	36.8%	55.1%	-	55.4%
CharXiv-D	87.9%	88.4%	73.9%	85.3%	76.6%	88.9%	-	90.0%

Function Calling Eval

Category	GPT-4.1	GPT-4.1 mini	GPT-4.1 nano	GPT-4o (2024-11-20)	GPT-4o mini	OpenAI o1 (high)	OpenAI o3-mini (high)	GPT-4.5
ComplexFuncBench	65.5%	49.3%	0.6%	66.5%	38.6%	47.6%	17.6%	63.0%
Taubench airline⁴	49.4%	36.0%	14.0%	42.8%	22.0%	50.0%	32.4%	50.0%
Taubench retail^{4, 5}	68.0% (73.6%)	55.8% (65.4%)	22.6% (23.5%)	60.3%	44.0%	70.8%	57.6%	68.4%

[4] tau-bench eval numbers are averaged across 5 runs to reduce variance, and run without any custom tools or prompting.

[5] Numbers in parentheses represent Tau-bench results when using GPT-4.1 as the user model, rather than GPT-4o. We’ve found that, since GPT-4.1 is better at instruction following, it is better able to perform as the user, and so results in more successful trajectories. We believe this represents the true performance of the evaluated model on the benchmark.

Livestream replay

Author

OpenAI

Research leads

Ananya Kumar, Jiahui Yu, John Hallman, Michelle Pokrass

Research core contributors

Adam Goucher, Adi Ganesh, Bowen Cheng, Brandon McKinzie, Brian Zhang, Chris Koch, Colin Wei, David Medina, Edmund Wong, Erin Kavanaugh, Florent Bekerman, Haitang Hu, Hongyu Ren, Ishaan Singal, Jamie Kiros, Jason Ai, Ji Lin, Jonathan Chien, Josh McGrath, Julian Lee, Julie Wang, Kevin Lu, Kristian Georgiev, Kyle Luther, Li Jing, Max Schwarzer, Miguel Castro, Nitish Keskar, Rapha Gontijo Lopes, Shengjia Zhao, Sully Chen, Suvansh Sanjeev, Taylor Gordon, Ted Sanders, Wenda Zhou, Yang Song, Yujia Xie, Yujia Jin, Zhishuai Zhang

Research contributors

Aditya Ramesh, Aiden Low, Alex Nichol, Andrei Gheorghe, Andrew Tulloch, Behrooz Ghorbani, Borys Minaiev, Brandon Houghton, Charlotte Cole, Chris Lu, Edmund Wong, Hannah Sheahan, Jacob Huh, James Qin, Jianfeng Wang, Jonathan Ward, Joseph Mo, Joyce Ruffell, Kai Chen, Karan Singhal, Karina Nguyen, Kenji Hata, Kevin Liu, Maja Trębacz, Matt Lim, Mikhail Pavlov, Ming Chen, Morgan Griffiths, Nat McAleese, Nick Stathas, Rajkumar Samuel, Ravi Teja Mullapudi, Rowan Zellers, Shengli Hu, Shuchao Bi, Spencer Papay, Szi‑chieh Yu, Yash Patil, Yufeng Zhang

Applied and scaling contributors

Adam Walker, Ali Kamali, Alvin Wan, Andy Wang, Ben Leimberger, Beth Hoover, Brian Yu, Charlie Jatt, Chen Ding, Cheng Chang, Daniel Kappler, Dinghua Li, Felipe Petroski Such, Janardhanan Vembunarayanan, Joseph Florencio, Kevin King, Larry Lv, Lin Yang, Linden Li, Manoli Liodakis, Mark Hudnall, Nikunj Handa, Olivier Godement, Ryszard Madej, Sean Chang, Sean Fitzgerald, Sherwin Wu, Siyuan Fu, Stanley Hsieh, Yunxing Dai

Sales, Marketing, Comms & Design

Andy Wood, Ashley Tyra, Cary Hudson, Dana Palmie, Jessica Shieh, Justin Wang, Karan Sekhri, Katie Kim, Kendal Simon, Laura Peng, Leher Pathak, Lindsay McCallum, Matt Nichols, Nick Pyne, Noah MacCallum, Oona Gleeson, Pranav Deshpande, Rishabh Aggarwal, Scott Ethersmith, Shaokyi Amdo, Stephen Gutierrez, Tabarak Khan, Terry Lee, Thomas Degry, Veit Moeller, Yara Khakbaz