这是用户在 2025-3-13 16:16 为 https://arxiv.org/html/2503.04691?_immersive_translate_auto_translate=1 保存的双语快照页面,由 沉浸式翻译 提供双语支持。了解如何保存?

HTML conversions sometimes display errors due to content that did not convert correctly from the source. This paper uses the following packages that are not yet supported by the HTML conversion tool. Feedback on these issues are not necessary; they are known and are being worked on.

  • failed: kantlipsum
  • failed: scalerel
  • failed: etoc

Authors: achieve the best HTML results from your LaTeX submissions by following these best practices.

License: CC BY 4.0
arXiv:2503.04691v2 [cs.CL] 10 Mar 2025


评估 LLMs 在真实临床案例中的推理能力

Pengcheng Qiu Shanghai Jiao Tong University, Shanghai, China
Shanghai Artificial Intelligence Laboratory, Shanghai, China
Equal contributions         
Chaoyi Wu Shanghai Jiao Tong University, Shanghai, China
Shanghai Artificial Intelligence Laboratory, Shanghai, China
Equal contributions         
Shuyu Liu Shanghai Jiao Tong University, Shanghai, China
Weike Zhao Shanghai Jiao Tong University, Shanghai, China
Shanghai Artificial Intelligence Laboratory, Shanghai, China
Zhuoxia Chen China Mobile Communications Group Shanghai Co., Ltd., Shanghai, China

Hongfei Gu
China Mobile Communications Group Shanghai Co., Ltd., Shanghai, China
Chuanjin Peng China Mobile Communications Group Shanghai Co., Ltd., Shanghai, China
Ya Zhang Shanghai Jiao Tong University, Shanghai, China
Shanghai Artificial Intelligence Laboratory, Shanghai, China
Yanfeng Wang Shanghai Jiao Tong University, Shanghai, China
Shanghai Artificial Intelligence Laboratory, Shanghai, China
Weidi Xie Shanghai Jiao Tong University, Shanghai, China
Shanghai Artificial Intelligence Laboratory, Shanghai, China
Abstract


近期,推理增强的大型语言模型(LLMs)取得了进展,如 DeepSeek-R1 和 OpenAI-o3,展示了显著进步。然而,这些模型在专业医疗环境中的应用尚未得到充分探索,尤其是在评估推理过程和最终输出的质量方面。在这里,我们介绍 MedR-Bench,这是一个包含 1,453 个结构化患者案例的基准测试数据集,这些案例的推理参考来自临床案例报告。 涵盖 13 个身体系统和 10 个专科,包括常见和罕见疾病。为了全面评估LLM的表现,我们提出一个框架,包括三个关键检查建议、诊断决策和治疗规划,模拟整个患者护理过程。 为了评估推理质量,我们推出了推理评估器,一个新的自动化系统,通过动态交叉引用和证据检查,客观评估自由文本推理的效率、准确性和完整性。基于这一标准,我们评估了五种最先进的推理模型LLMs,包括 DeepSeek-R1、OpenAI-o3-mini 和 Gemini-2.0-Flash Thinking 等。 我们的结果显示,当提供足够的数据集时,当前的LLMs在相对简单的诊断任务中能达到 85%以上的准确率。然而,在更复杂的任务中,如建议和治疗规划,性能下降。虽然推理结果通常可靠,事实性得分超过 90%,但关键推理步骤常被遗漏。这些发现凸显了临床LLMs的进展和局限性。 值得注意的是,像 DeepSeek-R1 这样的开源模型正在缩小与专有系统的差距,这凸显了它们在推动医疗领域的可及和公平进步的潜力。

1 引言


近年来,大型语言模型(LLMs)取得了显著进展,OpenAI-o1 [1] 和 DeepSeek-R1 [2] 等系统展现了卓越的推理能力。这些模型在结构化问题解决和逻辑推理方面表现出色,在数学和编程等领域取得了显著成功 [3, 2, 4]。然而,它们在医疗领域的应用——这个领域复杂多变,需要上下文理解——仍未得到充分探索。


现有的 LLM 医学基准测试 [5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15] 主要侧重于评估最终结果,如诊断准确性或治疗建议,而没有充分评估这些结果背后的推理过程。这一方法与临床实践不同,在临床实践中,医生通过整合多样且往往不完整的资讯,构建逻辑推理链,以指导决策。 因此,缺乏优先考虑推理质量的标准,导致在评估 LLMs 在实际临床中的可靠性和实用性时存在显著差距。


为了解决这个问题,我们提出了 MedR-Bench,这是首个专门用于评估最先进 LLMs 医疗推理能力的基准。MedR-Bench 包括 1,453 个真实世界的临床案例,涵盖 13 个身体系统和 10 种疾病类型,其中 656 个案例专门针对罕见疾病。 与现有基准不同,MedR-Bench 不仅关注最终诊断或治疗计划的准确性,还重视其推理过程的透明度、连贯性和事实准确性。受 [16, 17] 的启发,该基准由 PMC 开放访问子集 [18] 中的真实病例报告构建,使用 GPT-4o 整理成结构化的患者案例。 每个案例包括 (i) 详细的患者信息(如主要症状、病史),(ii) 来自案例讨论的结构化推理过程,以及 (iii) 最终诊断或治疗方案,反映了现实世界的临床复杂性。通过包含多样且具有挑战性的案例,包括罕见情况,MedR-Bench 作为全面的测试平台,用于评估 LLMs 在临床环境中的推理能力。


为了评估 LLMs,我们提出一个涵盖三个关键临床阶段的框架:建议、诊断决策和治疗规划,以覆盖整个患者护理过程。建议阶段评估模型建议相关临床评估并迭代收集必要信息的能力。 诊断决策测试模型根据患者病史、检查结果、实验室测试和影像学检查得出精确诊断的能力。最后,治疗规划测试模型根据诊断结论和患者情况,推荐适当的干预措施,如监测策略、药物治疗或手术方案。


为了评估性能,我们开发了一个评估系统,评估推理质量和最终输出。对于推理评估,我们引入了推理评估器,一个新颖的自动化系统,利用网络规模的医疗资源,通过交叉引用验证自由文本推理过程。它计算效率、准确性和完整性等指标。对于最终输出,我们采用标准指标,如准确率、精确率和召回率。 使用 MedR-Bench,我们评估了五个增强推理的模型 LLMs—OpenAI-o3-mini、Gemini-2.0-Flash Thinking、DeepSeek-R1、Qwen-QwQ 和 Baichuan-M1,分析了它们在不同临床阶段的优势和局限。


我们的研究发现,当前的临床LLMs在相对简单的任务上表现良好,例如在信息充足时生成准确诊断,准确率超过 85%。然而,它们在复杂任务上表现不佳,如检查建议和治疗方案。 在推理质量方面,LLMs 表现出很强的准确性,90% 的推理步骤正确,但关键推理步骤常有遗漏,需要改进完整性。对于罕见疾病,这些案例依然具有挑战性,但模型在推理和预测任务上表现一致,表明对医学知识有深入理解。


令人鼓舞的是,我们的研究表明,开源模型如 DeepSeek-R1 正在逐渐缩小与 OpenAI-o3-mini 等专有系统的差距,这凸显了它们在推动可负担和公平的医疗创新方面的潜力,并激励了它们的发展。在 MedR-Bench 中,所有代码、数据、评估模型的响应和评估流程都是完全开源的。

Refer to caption

图 1:我们的主要评估流程和结果概述。a 展示了我们在三个关键患者阶段的评估框架。b 展示了我们使用推理评估器进行推理过程和最终生成的指标。c 比较了五种LLMs在检查建议、诊断决策和治疗规划方面的表现。值得注意的是,在治疗规划中,我们还对比了罕见疾病案例。 对于其他设置,由于罕见疾病的结果与所有病例相比变化不大,我们在这里省略,并在扩展表格中提供。d 比较了推理过程的质量,罕见病例的结果也在补充材料中提供。对于检查建议,绘制了一轮推理结果,对于诊断决策,绘制了神谕推理结果。

2 Results


在本节中,我们展示我们的主要发现。我们首先概述 MedR-Bench,然后分析三个关键阶段的结果:检查建议、诊断决策和治疗规划。在补充材料 10.1 中,我们提供了定性案例研究。


2.1 用于评估的大语言模型


本研究使用了多种模型,包括不同版本、大小、训练数据的截止日期和发布日期。对于闭源模型,我们直接访问其 API;而对于开源模型,我们下载模型权重并进行本地推理。详细信息如下。


  • • OpenAI-o3-mini:这是一个闭源模型,版本号为 o3-mini-2025-01-31。其模型大小未公开。训练数据的截止日期为 2023 年 10 月,2025 年 1 月正式发布。

  • • Gemini-2.0-FT:这是一个闭源模型,版本为 gemini-2.0-flash-thinking-exp-01-21。类似于 OpenAI-o3-mini,模型大小未公开。其训练数据的截止日期为 2024 年 6 月,并于 2025 年 1 月发布。

  • • DeepSeek-R1:这是一个开源模型,版本号为 deepseek-ai/DeepSeek-R1。它是一个大规模模型,拥有 6710 亿参数(671B)。训练数据的截止日期未公开,该模型于 2025 年 1 月发布。

  • • Qwen-QwQ:这是一个开源模型,版本号为 Qwen/QwQ-32B-Preview,拥有 320 亿参数(32B)。训练数据的截止日期未公开,模型于 2024 年 11 月发布。

  • • 百川-M1:这是一个开源模型,版本标识为 baichuan-inc/Baichuan-M1-14B-Instruct,拥有 140 亿个参数(14B),训练数据的截止日期未公开。该模型于 2025 年 1 月发布。


2.2 MedR-Bench 的介绍


我们提出的 MedR-Bench 包含三个关键部分:(1) 结构化的患者案例,(2) 三阶段的灵活评估框架,(3) 全面的评估指标。

2.2.1 患者案例


利用 PMC 开放获取子集 [18] 中的病例报告,我们整理了一个包含 1,453 个患者病例的数据集,这些病例是在 2024 年 7 月之后发布的,以确保所有模型的评估基于其训练数据的截止日期。这些病例分为两个子集:MedR-Bench-Diagnosis,包含 957 个与诊断相关的病例,MedR-Bench-Treatment,包含 496 个与治疗相关的病例。如补充图 1 所示,所有病例系统地组织到以下元素:


  • • 案件摘要:记录关键患者信息。对于诊断病例,包括基本人口信息(如年龄、性别)、主要症状、当前病史、既往病史、家族史、体检结果以及辅助检查(如实验室和影像结果)。对于治疗病例,还包括过敏史、社会史和诊断结果等因素,因为这些因素影响治疗决策。 原始病例报告中缺失的信息记为“未提及”。

  • • 推理过程:总结自案例报告的讨论部分,反映了得出诊断或制定治疗方案的逻辑步骤。在诊断案例中,推理主要集中在鉴别诊断等方法上。在治疗案例中,它强调治疗目标和所选干预措施的理由。

  • • 诊断或治疗结果:直接从病例报告中提取。诊断包括确诊的疾病,治疗包含推荐干预措施的自由文本描述。


此外,每个病例按“身体系统”和“疾病和病症”分类,遵循 MedlinePlus 的分类 1

, 并标记相关病例为罕见疾病。这使得 MedR-Bench-Diagnosis 和 MedR-Bench-Treatment 分别包含 491 和 165 个罕见疾病子集。详细病例分布见方法部分,补充材料 10.1 提供了具体病例示例。

2.2.2 评估设置


为了评估 LLMs 的临床能力,我们开发了一个框架,涵盖患者护理的三个阶段:检查推荐、诊断决策和治疗规划,如图 1a 所示(详细演示见扩展图 1)。以下总结这些部分(详见方法部分)。


考试建议。


此设置模拟患者首次就诊的情景,LLMs负责推荐检查项目,如实验室测试或影像学检查,逐步收集信息以辅助诊断或治疗。使用 MedR-Bench-Diagnosis,病例摘要(不包括辅助测试结果)作为输入,而真实世界的辅助测试事件则作为真实参考。 与之前的研究 [14, 19, 20] 类似,我们初始化一个 LLM 驱动的代理来扮演患者。评估的临床 LLM 可以通过推荐相关检查项目与代理互动,代理则提供相应的检查结果。


为了评估性能,我们定义了两个设置:(i) 一轮查询:LLMs可以在一次交互中查询考试结果;(ii) 多轮查询:LLMs可以多轮查询,直到获取足够的信息用于后续决策。


诊断决策。


此设置评估 LLMs 是否能基于给定的患者信息提供准确的诊断。使用 MedR-Bench-Diagnosis,病例摘要作为输入,而记录的诊断作为参考标准。


我们根据检查信息的可用性定义了三个子设置:(i) 单轮检查后诊断决策:LLMs 使用从单轮设置中收集的有限信息;(ii) 自由轮检查后诊断决策:LLMs 使用来自自由轮设置的更全面信息;(iii) 权威诊断:LLMs 可以访问所有真实检查证据,代表最简单的设置。

治疗计划。


此设置评估 LLMs 推荐合适治疗方案的能力。使用 MedR-Bench-Treatment,病例摘要(包括诊断结果)作为输入,实际治疗方案作为参考。与诊断不同,仅使用神谕设置,LLMs 拥有所有真实患者数据,如基本信息、辅助检查和真实的诊断结果。 这反映了治疗计划的挑战,正如我们的结果所示,这已经足够具有挑战性。

2.2.3 评估指标


我们设计了六项指标,客观评估 LLMs 的性能,重点关注其推理过程和最终输出,如图 1b 所示。值得注意的是,对于 DeepSeek-R1,它将有两个潜在的推理部分,一个在正式部分中,另一个在默认思考部分中(更多详细解释请参见方法 4.4)。默认情况下,我们在图表中主要展示前者以进行公平比较。 在表格中,我们报告了两个部分的推理指标,记为“XX /xx”,其中前者表示正式答案中的推理部分,后者表示被标记的思考部分。下面简要介绍这些指标,详细解释见方法部分。


对于主要以自由文本表达并带来重大评估挑战的推理过程 [11, 12, 21, 22],我们开发了一个名为推理评估器的 LLM 系统。该系统分解、结构化并验证推理步骤,识别有效步骤与重复步骤,并通过引用在线医学资源评估其与医学知识或指南的一致性。 如果提供了真实推理的参考,系统会进一步评估是否包含了所有相关步骤。详情请参见方法部分。


基于这个流程,我们定义以下推理指标:


  • 效率:评估每个推理步骤是否为最终答案提供了新的见解,而不是重复或重新表述之前的结论。其计算为有效推理步骤在整个推理中的比例。


  • • 实证性:评估有效推理步骤是否符合医学指南或事实知识。类似于‘精确度’评分,它计算了预测有效推理步骤中实证正确的步骤比例。

  • 完整性:衡量原始病例报告中明确标记的推理步骤在生成内容中包含的步骤数量。类似于“召回率”,它计算了所有真实步骤中被提及的推理步骤的比例。尽管原始病例报告可能遗漏一些步骤,但包含的步骤被视为关键的推理证据。


在最终生成的结果中,例如推荐的检查、诊断的疾病和治疗方案,使用以下指标:


  • • 准确性:评估最终答案(诊断和治疗)是否与原始病例报告中的真实情况一致。

  • • 精确率和召回率:用于医学建议,LLMs 为特定病例生成推荐检查列表。这些指标通过对比生成的检查列表与病例报告中的真实辅助测试列表来计算。


2.3 考试推荐结果


本节展示了主要评估结果,用于检查建议,如图 1c 和图 1d 所示。详细结果汇总于扩展表 1,推理过程的结果则在扩展表 2 中提供。


推荐考试的分析。


在 1 轮设置中,如扩展表 1 所示,DeepSeek-R1 以 43.61%的召回率最高,展示了其识别相关检查的能力。Gemini-2.0-FT 紧随其后,召回率为 43.12%。Qwen-QwQ 排名居中,而 OpenAI-o3-mini 和 Baichuan-M1 表现欠佳。然而,他们的结果与竞争对手相当。


在精确度上,百川-M1 的得分 41.78%,超越了其他模型,表明其更符合医疗场景,并能更好地推荐相关检查。相比之下,Qwen-QwQ 和 Gemini-2.0-FT 分别获得较低的精确度 24.43% 和 22.77%,这表明它们频繁推荐不相关的检查。这可能是由于 Qwen-QwQ 的参数量较小,且其优化重点是数学领域而非医疗推理。


在自由轮次设置中,模型可以无限制地进行查询,但所有模型的精确率和召回率都没有显著提升。未复习的考试仍然未被复习,即使增加自由轮次,有些模型的性能甚至略有下降。例如,OpenAI-o3-mini 在自由轮次设置中召回率为 38.22%,略低于其在 1 轮次中的 38.47%;DeepSeek-R1 的召回率从 1 轮次中的 43.61% 下降到 40.67%。


在自由回合设置中观察到的一个问题是,模型经常陷入重复的查询循环,要求进行已经提供或明确表示不可用的检查。这种处理多轮对话的低效限制了自由回合设置的效用,并凸显了当前LLMs在长时间互动中提出新查询的挑战。


最后,在分析罕见疾病的表现(扩展表 1)时,我们发现大多数模型在常见疾病上的表现与在罕见疾病上的表现相当。


推理过程分析。


在推理层面,我们主要关注一轮的设置,因为自由轮的设置涉及随着轮次增加而延长的推理过程。值得注意的是,在这种情况下,完整性无法计算,因为案例报告很少记录特定检查选择的推理过程。


如扩展表 2 所示,效率结果显示 DeepSeek-R1 得分最高,达到 98.59%,展示了其生成简洁且相关的推理步骤的能力。相比之下,Qwen-QwQ 的得分最低,仅为 86.53%。这可能是由于其“深度思考”的训练目标 [23],导致生成过多尝试,最终降低了效率。


在真实性方面,大多数 LLMs 表现良好,得分接近 95%。其中,Gemini-2.0-FT 在考试推荐中表现最可靠,真实性得分为 98.75%。值得注意的是,没有一个模型在推理过程中达到完全真实(100%),这强调了在实际医疗应用中仔细验证关键推理步骤的重要性。


在分析罕见疾病的推理时(扩展表 2),我们发现与常见疾病一致的趋势,这表明 LLMs 在常见和罕见病例中的稳健性。


2.4 诊断决策中的结果


本节展示了诊断决策的结果,分析了最终输出和推理能力的表现。


疾病诊断分析。


如图 1c 和扩展表 3 所示,我们评估了在三种设置下的诊断性能:1-turn、free-turn 和 oracle。总体上,DeepSeek-R1 在这些设置中表现出最佳的诊断准确率,准确率分别为 71.79%、76.18%和 89.76%。


在一轮设置中,DeepSeek-R1 达到了最高的诊断准确率(71.79%),展示了其收集相关信息并做出准确诊断的能力。Gemini-2.0-FT 紧随其后,准确率为 68.55%。这些结果显示了主动信息收集与诊断精度之间的相关性。Baichuan-M1 排名居中,而 OpenAI-o3-mini 和 Qwen-QwQ 的表现较差,这与他们在考试中的结果一致。


在自由轮次设置中,大多数模型能够迭代查询额外信息,尽管检查建议的召回率变化不大,但诊断准确性有所提高。例如,DeepSeek-R1 的准确率从 1 轮次 71.79% 提高到 76.18%,而 OpenAI-o3-mini 的准确率从 64.99% 提高到 67.19%,这可能是由于模型在多个轮次中重新分析检查结果,从而增加了推理计算。 然而,百川-M1 在精度上出现了显著下降,可能是由于其较小的模型大小导致的上下文长度限制。


在提供所有关键诊断信息的 Oracle 设置中,所有模型的准确率显著提高。例如,DeepSeek-R1 从 76.18% 提升到 89.76%,紧随其后的是 Gemini-2.0-FT。OpenAI-o3-mini、Qwen-QwQ 和 Baichuan-M1 的准确率也超过 83%。这些结果强调了识别和推荐相关检查以支持准确诊断的重要性。


总体而言,所有模型在参考设置下达到 80%以上的诊断准确率,表明在提供足够信息的情况下,当前的LLMs模型能够可靠地完成诊断任务。在罕见疾病上的表现与常见疾病一致,进一步证明了这些模型在复杂场景下的稳健性。


推理过程分析。


图 1d 和扩展表 4 显示了所有疾病的诊断推理结果。扩展表 5 进一步展示了罕见疾病的结果。


在 1 轮诊断设置中,如表 4 所示,在推理基于不完整检查的情况下,除了 Qwen-QwQ,大多数模型在事实性上相较于预言设置下表现下降。这表明检查缺失增加了推理错误的可能性。有趣的是,Qwen-QwQ 在此设置下表现良好,尽管其效率低,但生成详尽推理,完成率达到了 66.94%。


在提供所有重要考试结果的测试环境中,Gemini-2.0-FT 在准确性和完整性方面表现出色,分别获得 98.23% 和 83.28% 的分数。DeepSeek-R1 以 97.17% 的效率领先。相比之下,Qwen-QwQ 在效率(71.20%)和准确性(84.02%)方面表现不佳,因为其推理较为冗长。 然而,这种冗长的处理方式使得模型能够获取更多的真实推理证据,从而在开源模型中获得最高的完整性得分(79.97%)。值得注意的是,对于罕见疾病,如表 5 所示,性能保持一致,大多数 LLMs 的事实性并未下降。


2.5 治疗规划的结果


本节展示了治疗规划的结果。总体结果如图 1c(最终结果)和图 1d(推理过程)所示,详细结果见扩展表 6。


治疗方案的分析。


在治疗规划中,我们发现推荐治疗方案的精确度显著低于诊断结果的准确度。在模型中,百川-M1 和 DeepSeek-R1 的精确度分别为 30.65% 和 30.51%,最高。这表明治疗规划比诊断更复杂,强调了 LLMs 的进一步发展需求。


与诊断不同,罕见病例不会影响诊断效果。在治疗方案规划中,通用模型对罕见疾病的处理精度显著下降。例如,OpenAI-o3-mini 的处理准确率从 27.03% 下降到 23.17%,DeepSeek-R1 从 30.51% 下降到 27.27%。这表明在治疗罕见疾病时,专业知识的缺失是一个持续存在的难题。 相比之下,百川-M1 保持了稳定的性能,精度从 30.65% 稍稍下降到 30.30%,证明了其医疗知识的有效增强。


推理过程分析。


如扩展表 6 所示,治疗规划的推理质量通常较高。大多数模型的实际一致性得分超过 95%,符合医学指南。 DeepSeek-R1 的效率最高(95.25%),而 Gemini-2.0-FT 在准确性方面领先(96.96%),紧随其后的是 OpenAI-o3-mini(96.77%)。Qwen-QwQ 在其他阶段的表现一致,效率最低(84.76%),但准确性最高(77.66%),这反映了其生成大量推理的倾向。有趣的是,在少数情况下,推理性能变化不大,模型保持高准确性和完整性评分。 然而,在最终的治疗方案中,模型的准确性通常较低。

3 讨论


在这项研究中,我们评估了最新推出的医疗领域推理增强大语言模型(LLMs),重点关注最终输出和底层推理过程。与之前关于医疗LLMs评估的研究[5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15]不同,我们的方法更加重视推理质量的量化。本研究的主要贡献如下:


一个包含真实患者案例的多样化评估数据集,并附有推理参考。我们推出了 MedR-Bench,这是一个包含 1,453 个结构化患者案例的数据集,这些案例来源于已发表的病例报告。涵盖 13 个医学系统和 10 个疾病专科,包括常见和罕见疾病,适用于诊断和治疗规划。与现有的多选数据集不同,MedR-Bench 紧密反映了现实中的医疗实践。 此外,每个案例都包含高质量案例报告中的推理证据,这有助于严格评估推理过程。


一个多功能评估框架,涵盖患者的三个关键阶段。我们的基准评估 LLM 在患者护理的三个关键阶段的表现:检查建议、诊断决策和治疗规划。该框架模拟了典型的临床流程,展示了 LLMs 表现优异的领域,并指出其支持临床决策的能力存在哪些不足。


来自多个视角的一套客观指标。我们采用多维度指标来评估 LLM 的表现。不仅评估最终输出的准确性,我们还引入了推理评估器,一个系统,旨在定量衡量自由文本推理的质量。通过自动验证机制,确保推理由权威医疗证据支持,或与参考真实推理一致。


以下结果总结了 LLMs 在 MedR-Bench 上的表现:


LLMs 在充分检查下表现出强大的诊断能力。最先进的推理 LLMs 在获得充分且结构良好的信息时,表现出强大的诊断能力(表 3)。这些模型擅长整合不同专家的检查结果,以生成清晰准确的诊断。尽管偶尔会出现错误,但总体结果令人鼓舞,突显了将 LLMs 整合到临床流程中的潜力。 这是朝着将其纳入医疗实践迈出的有希望的一步。


检查建议和治疗规划仍然充满挑战。尽管诊断成功,LLMs在推荐额外检查以获取必要的诊断线索时仍面临困难(表 1)。这一限制非常关键,因为这些建议是准确医疗决策的核心。同样,治疗规划也面临重大挑战,该领域的表现显著落后。 这一不足可能是因为 Oracle 的诊断设置与多项选择题的医疗问答数据集非常相似 [7, 6],这些数据集已经过广泛优化。这表明虽然 LLMs 掌握了基础医学知识并能综合检查结果,但尚未完全适应动态的真实医院环境。这些差距强调了在临床应用中需要人类监督,并指出了未来改进的关键领域。


LLMs 在医学领域的推理能力仍不足。我们的基准通过效率、准确性和完整性等指标来评估推理质量。大多数模型的高效率(超过 90%,除了 Qwen-QwQ),表明其推理步骤为决策贡献良多,但事实性评分显示偶尔会出现错误。 这些错误在一般情况下可以容忍,但在临床环境中可能带来风险,过度依赖LLM的输出可能会造成伤害。完整性尤其令人担忧,得分在 70%到 80%之间,这表明关键推理步骤经常被遗漏,而这些步骤对于临床决策至关重要。总体而言,当前LLMs的推理能力勉强令人满意,需要大幅改进以满足临床可靠性和准确性的要求。


LLMs 尽管面临挑战,仍保持在罕见疾病上的出色表现。MedR-Bench 包含大量罕见疾病病例,这些病例本身就更难处理。虽然这些病例的治疗规划表现较弱,但下降幅度不大,LLMs 在其他任务上表现一致。 这种稳健性表明,当前 LLMs 即使在罕见疾病领域,也具备强大的医学知识基础,这凸显了它们在多种临床场景中的潜在应用。


开源和闭源 LLMs 的差距正在缩小。令人鼓舞的是,最新的开源模型,如 DeepSeek-R1,在医疗任务中接近闭源 LLMs 的性能。开源模型在临床应用中具有显著优势,包括本地部署以保护患者隐私和减少数据泄露风险。 它们的易用性减少了对专有系统的依赖,推动了 LLM 方案在医学中的广泛应用,同时避免了医疗资源的垄断。


局限性。这项工作存在多处局限性。首先,我们确保评估案例源自近期的病例报告,但无法完全保证所有案例已被排除在评估模型的训练数据之外,因为一些LLMs未披露其训练数据的截止日期。其次,MedR-Bench 中的患者案例由LLMs自动转换,虽然有病例报告支持,但在此过程中可能引入错误。 第三,评估 LLM 性能的指标虽然客观且可扩展,但无法完全取代人工验证。尽管耗时,人工审核在验证临床准确性方面仍然至关重要。


为了解决这些问题,我们已开放所有代码、评估案例和模型响应,供社区访问和改进。我们鼓励临床医生参与评审和验证 LLM 生成的响应,以推动这一领域的研究。

4 Methods


本节介绍了 MedR-Bench 的开发,包括数据整理流程、三阶段评估框架,以及通过推理评估器实现的评估指标。所有提示都在补充材料中提供,并引用为 Prompt X,其中 X 表示相应的提示编号。

4.1 数据管理


如图 2a 所示,从 PubMed Central 开放存取(PMC-OA)子集中收集了病例报告[18],重点关注标为“病例报告”的文章。为防止潜在的数据泄露,我们排除了 2024 年 7 月前的论文,这与 OpenAI-o3-mini 和 Gemini-2.0-FT 的训练数据截止日期一致。虽然其他模型未披露截止日期,但它们的发布时间(接近 2025 年 1 月)和可比性能表明这个截止日期足以用于分析。 筛选后得出 3,817 个病例报告。


为了确保相关性,不相关的病例报告,如那些专注于医学教育的报告,被排除在外。这些报告使用 GPT-4o [24] (gpt-4o-2024-11-20) 和提示 1 重新格式化为结构化的患者病例。与诊断相关的病例包括“鉴别诊断过程”和“最终诊断解释”的章节(提示 2),而与治疗相关的病例包括“治疗目标”和“综合理由”的章节(提示 3)。


患者案例分类。


为了确保评估数据集中包含所有患者案例,每个案例根据医疗方面及其与罕见疾病的相关性进行分类。医疗方面采用的是 MedlinePlus [25] 的“身体系统”和“疾病与状况”分类法,详见其“健康主题”页面。不属于任何预定义类别的案例被归类为“其他”。 使用提示 4 时,GPT-4o 根据主要受影响的身体部位将病例归类到身体系统类别,而使用提示 5 时,根据相关疾病将病例归类到疾病类别。


为了识别罕见疾病,我们使用了罕见病类本体(ORDO 2

) 由 Orphanet 提供 [26]。首先,使用 Scispacy [27] 从患者病例中提取所有相关的 UMLS [28] 概念唯一标识符 (CUIs)。如果 CUI 匹配 ORDO 中列出的 CUI,则使用 GPT-4o 进行进一步验证,使用提示 6 确认是否明确提及罕见疾病。通过这两步验证的病例被归类为与罕见疾病相关;否则,被标记为与罕见疾病无关。


因此,所有病例被分为三个维度:“身体系统”、“疾病和病症”(简称“疾病”)以及罕见疾病相关性。MedR-Bench 包含 1,453 个现实世界患者病例,其中 957 个为诊断病例,496 个为治疗病例。其中 491 个诊断病例和 165 个治疗病例与罕见疾病相关。病例在医学领域的分布如图 2a 所示。 详细病例及参考类别标签见补充材料 10.1。

4.2 评估框架

Refer to caption

图 2:我们的数据管理流程、推理评估器和最终患者案例分布概览。a 通过流程图展示我们的数据管理流程。我们从 PMC-OA 子集的原始病例报告开始,然后筛选并重组为结构化的患者案例进行测试。b 展示了我们的推理评估器,以定量评估推理质量的效率、事实性和完整性方面。 外部搜索引擎用于帮助代理更准确地评估推理步骤的正确性。c 本图展示了患者案例在不同医学领域的分布情况。


在本节中,我们介绍评估框架的实现细节。考虑三个关键阶段:检查建议、诊断决策和治疗规划。


考试建议。


在此阶段,我们受早期研究 [14, 19, 20] 的启发,评估了 LLMs 与患者进行动态互动并主动推荐必要检查以支持临床决策的能力。为此,我们使用 GPT-4o 和提示 7 构建了一个患者代理,其中 {case} 代表 MedR-Bench 中的特定患者案例。患者代理被设计为虚拟患者,能够与 LLMs 进行动态互动,并回答他们的问题。


在评估过程中,临床 LLMs 会收到患者案例摘要,不包括辅助测试的详细信息,并需要与患者代理互动以获取准确诊断所需的信息。互动遵循两种协议之一:1 轮或自由轮互动。在每轮互动中,LLMs 可以要求进行额外的检查,如影像或实验室检查,模拟真实世界的临床流程。 如果患者案例中没有所需检查,患者代理会回复:“此请求没有相关辅助测试信息。”


在 1 轮协议下,LLMs被提示根据患者案例使用提示 8 请求必要的信息。在自由轮协议下,LLMs首先被提示使用提示 10 输入患者案例摘要。在后续轮次中,他们被提示使用提示 11 来决定是否掌握了足够的信息来明确诊断。


诊断决策。


在此阶段,我们评估LLM在不同环境下的诊断能力,按关键信息可用性排序:(i)1 回合检查后诊断建议:LLMs通过整合基本患者信息和 1 回合检查阶段获得的额外细节,使用提示 9 进行最终诊断。 (ii) 诊断建议:在这种情况下,LLMs 根据自由轮次互动中的检查信息进行诊断,认为现有信息已足够。为防止无限循环,轮次限制为五轮。如果达到上限,LLM 必须根据收集的信息进行诊断。 (iii) 诊断结果:在这种设置下,LLMs 会收到完整的真实患者信息,包括所有辅助检查,并提示使用提示 12 进行诊断。

治疗计划。


在这个阶段,我们向 LLMs 提供完整的患者信息,包括最终诊断结果,以生成使用 Prompt 13 推荐的首选治疗方案。具体来说,对于 MedR-Bench 中的每个患者案例,我们提供完整的案例摘要作为输入(原始评估),并指示 LLMs 进行治疗方案的规划。

4.3 评估指标


在本节中,我们将详细解释各种评估指标的实现。


首先,在推理层面,我们引入了推理评估器,这是一个由 GPT-4o 驱动的系统,旨在客观评估自由文本推理的质量,如图 2b 所示。形式上,预测的推理过程用 ^={r^1,r^2,,r^N}subscript1subscript2subscript\mathcal{\hat{R}}=\{\hat{r}_{1},\hat{r}_{2},\cdots,\hat{r}_{N}\}over^ start_ARG caligraphic_R end_ARG = { over^ start_ARG italic_r end_ARG start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , over^ start_ARG italic_r end_ARG start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , ⋯ , over^ start_ARG italic_r end_ARG start_POSTSUBSCRIPT italic_N end_POSTSUBSCRIPT } 表示,其中每个 r^isubscript\hat{r}_{i}over^ start_ARG italic_r end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT 代表由原始评估的 LLMs 生成的推理步骤。 系统首先评估每个推理步骤的有效性,将每个步骤归类为以下四类之一:引用、重复、冗余、推理。


  • • 引文是指仅重述或直接引用输入内容的步骤。

  • • 重复步骤是指那些只是重复早期推理中已得出的结论的步骤。

  • • 冗余步骤是指那些对最终决策没有显著影响,且与推理过程无关的步骤。

  • • 推理是指提供额外见解并帮助做出最终决策的步骤。


只有被归类为有效的推理步骤。形式上,这种分类可以表示为 ei=𝒜(r^iPe)subscriptconditionalsubscriptsubscripte_{i}=\mathcal{A}(\hat{r}_{i}\mid P_{e})italic_e start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = caligraphic_A ( over^ start_ARG italic_r end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∣ italic_P start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT ) ,其中 ei{0,1}subscript01e_{i}\in\{0,1\}italic_e start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∈ { 0 , 1 } 表示某一步是否有效, PesubscriptP_{e}italic_P start_POSTSUBSCRIPT italic_e end_POSTSUBSCRIPT 表示用于指导 GPT-4o 的提示(Prompt 15)。


随后,代理系统通过验证每个有效推理步骤是否与外部医学知识或既定指南一致,来评估其准确性。具体来说,系统为每个有效推理步骤生成一系列搜索关键词,其形式为:

𝒦=𝒜(r^iPk),if ei=1,\mathcal{K}=\mathcal{A}(\hat{r}_{i}\mid P_{k}),\quad\text{if }e_{i}=1,caligraphic_K = caligraphic_A ( over^ start_ARG italic_r end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∣ italic_P start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT ) , if italic_e start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = 1 , (1)


其中 𝒦\mathcal{K}caligraphic_K 表示搜索关键词, PksubscriptP_{k}italic_P start_POSTSUBSCRIPT italic_k end_POSTSUBSCRIPT 表示相关提示(提示 16)。通过与外部搜索引擎工具交互,包括 Google 3
, Bing444百度或者 DuckDuckGo 5
我们可以检索出前 3 个推荐的在线页面。系统将总结这些信息的环境响应,以 Response=𝒜(Search(𝒦)Ps)conditionalsubscript\text{Response}=\mathcal{A}(\text{Search}(\mathcal{K})\mid P_{s})Response = caligraphic_A ( Search ( caligraphic_K ) ∣ italic_P start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT ) 形式呈现,其中 Search()\text{Search}(\cdot)Search ( ⋅ ) 代表搜索 API, PssubscriptP_{s}italic_P start_POSTSUBSCRIPT italic_s end_POSTSUBSCRIPT 是用于摘要的提示。最后,代理系统根据摘要来判断每一步的正确性:

ci={0,if ei=0,𝒜(r^iResponse,Pc),if ei=1.c_{i}=\begin{cases}0,&\text{if }e_{i}=0,\\ \mathcal{A}(\hat{r}_{i}\mid\text{Response},P_{c}),&\text{if }e_{i}=1.\end{cases}italic_c start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = { start_ROW start_CELL 0 , end_CELL start_CELL if italic_e start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = 0 , end_CELL end_ROW start_ROW start_CELL caligraphic_A ( over^ start_ARG italic_r end_ARG start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT ∣ Response , italic_P start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT ) , end_CELL start_CELL if italic_e start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = 1 . end_CELL end_ROW (2)


同样,这里, PcsubscriptP_{c}italic_P start_POSTSUBSCRIPT italic_c end_POSTSUBSCRIPT 是用于评估模型输出是否与搜索的事实信息一致或是否与之矛盾的提示(Prompt 17)。


接下来,如果提供了真实推理证据 \mathcal{R}caligraphic_R ,将使用代理系统将其与预测进行比较。评估预测中有多少步骤与真实推理证据匹配 ^\hat{\mathcal{R}}over^ start_ARG caligraphic_R end_ARG 。我们首先使用提示 14 将 \mathcal{R}caligraphic_R 分解为多个步骤 {r1,r2,,rM}=𝒜(Pd)subscript1subscript2subscriptconditionalsubscript\{{r}_{1},{r}_{2},\dots,{r}_{M}\}=\mathcal{A}({\mathcal{R}}\mid P_{d}){ italic_r start_POSTSUBSCRIPT 1 end_POSTSUBSCRIPT , italic_r start_POSTSUBSCRIPT 2 end_POSTSUBSCRIPT , … , italic_r start_POSTSUBSCRIPT italic_M end_POSTSUBSCRIPT } = caligraphic_A ( caligraphic_R ∣ italic_P start_POSTSUBSCRIPT italic_d end_POSTSUBSCRIPT ) 。然后,使用提示 18 确定每个步骤是否在预测中都可找到 PfsubscriptP_{f}italic_P start_POSTSUBSCRIPT italic_f end_POSTSUBSCRIPT

fi=𝒜(ri,^Pf).f_{i}=\mathcal{A}({r}_{i},\hat{\mathcal{R}}\mid P_{f}).italic_f start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT = caligraphic_A ( italic_r start_POSTSUBSCRIPT italic_i end_POSTSUBSCRIPT , over^ start_ARG caligraphic_R end_ARG ∣ italic_P start_POSTSUBSCRIPT italic_f end_POSTSUBSCRIPT ) . (3)


根据代理推理过程的结果,可以得出以下推理指标:


  • • 效率:该指标评估推理步骤在多大程度上增加了对最终答案的理解,而不是简单重复之前的结论或使用无关的推理内容。效率得分如下:

  • • 事实性:在这个指标中,我们评估推理步骤的准确性。这类似于精确率。根据推理评估的结果,我们计算所有有效步骤中遵循已建立的医学知识或指南的步骤比例:

  • • Completeness: 该指标评估原始案例报告中列出的推理步骤在生成内容中的体现程度。它类似于召回率,计算方式为:


为了进一步评估这些指标的可靠性,我们对关键的分类步骤进行了人工验证,包括有效性分类、事实性判断和完整性评估。对于每个组件,我们随机抽取了 100 个案例,并分配给四个独立评估者来验证系统预测结果的准确性。系统分别达到了 98%、99%和 90%的准确率。这些结果证明了最终指标的有效性。


此外,在最终生成阶段,例如,考试建议、疾病诊断、治疗规划,我们采用多种经典指标来衡量性能:


  • • 准确性:这是一个二值指标。它直接比较最终答案与原始病例报告中提供的真实情况是否一致。由于医学术语常有同义词,我们使用 GPT-4o 来验证预测结果是否与真实情况相同。为了准确诊断,我们使用了提示 19 中的提示。相比之下,治疗规划比准确诊断更复杂,因为同一疾病可能有不同的治疗路径。 为了解决这种复杂性,我们首先使用 Prompt 16 从患者案例中提取关键词。然后,我们使用搜索引擎收集相关信息,并根据这些信息和实际治疗计划进行判断,如 Prompt 20 所述。

  • • 精确率和召回率:这些指标用于考试推荐。它们通过精确率和召回率来比较 LLM 生成的推荐考试列表与实际列表的准确性。由于 LLM 的查询为自由文本,我们首先使用 GPT-4o 摘要并重组为结构化列表,使用 Prompt 21。然后我们用 Prompt 18 评估命中率。


同样,我们对 100 个样本案例进行了人工检查,以验证 GPT-4o 是否能准确评估诊断和治疗计划预测结果。在诊断任务中,GPT-4o 的准确率达到了 96%。在治疗规划任务中,由于其固有的复杂性和变异性,GPT-4o 的准确率达到了 84%。

4.4 LLM 基础线


在我们的 MedR-Bench 中,我们评估了五个主流推理 LLM 系列:


  • • OpenAI-o3-mini [29]: o3-mini 是 OpenAI 开发的最新 LLM,被广泛认为是目前最强大的 LLM。与 OpenAI 的前一个模型 GPT-4o 相比,其最显著的特性是增强的推理能力,换句话说,就是回答问题前的“思考”能力。我们使用官方 API 评估了模型版本 o3-mini-2025-01-31。

  • • Gemini-2.0-Flash-Thinking [30]: Gemini-2.0-Flash-Thinking 是 Google 开发的一种实验性“思考”LLM。与前代 Gemini 2.0 Flash 实验模型相比,它在回答中展现出更强的推理能力。该模型以其在生成答案前的明确“思考过程”为特点。我们使用官方 API 评估了模型版本 gemini-2.0-flash-thinking-exp-01-21。

  • • DeepSeek-R1 [2]: DeepSeek-R1 是 DeepSeek 公司开发的 6710 亿参数 LLM。它是一个开源模型,性能与 OpenAI 的 o1 相当。类似于 o1,它也是一个推理 LLM,能够生成明确的“思考”输出。在我们的评估中,我们使用了 Hugging Face 的模型权重,deepseek-ai/DeepSeek-R1 6

  • • Qwen-QWQ [23]: Qwen-QwQ 是 Qwen 团队开发的 32B 参数实验研究模型。类似于 OpenAI-o1 和 DeepSeek-R1,它也在推进 LLM 推理能力。我们使用 Qwen/QwQ-32B-Preview 7 的模型权重。

  • • 百川-M1 [31]: 百川-M1 是 Baichuan 公司开发的 140 亿参数的 LLM 医学模型。与之前提到的用于通用领域的模型不同,百川-M1 是最新的专用医学 LLM。我们使用 baichuan-inc/Baichuan-M1-14B-Instruct 8


值得注意的是,在评估过程中,有两种方法可以获得模型的推理结果。一种方法是使用模型的默认标记为“思考部分”。例如,DeepSeek-R1 的响应总是由两部分组成:一个思考部分和一个正式的回答部分,由特殊标记 “” 和 “ramentas” 分隔。OpenAI-o3-mini 的输出格式遵循相同的结构。 虽然将思考部分视为推理是自然的,但 OpenAI-o3-mini 默认省略了这一部分,其他模型如 Qwen-QWQ、Baichuan-M1 和 Gemini-2.0-Flash-Thinking (FT) 也不区分推理和回答部分。因此,为了标准化推理评估,我们采用第二种方法来获取推理:通过提示“逐步总结推理步骤”来生成推理响应。 对于 DeepSeek-R1,这种方法产生两种可能的推理输出:正式回答部分生成的推理结果,以及用特殊标记表示的额外思考部分。默认情况下,在图表中,我们报告前者以进行公平比较。在表格中,我们报告两者的推理指标,记录为“XX /xx”,其中前者表示正式回答部分的推理部分,后者表示标记的部分。

8 扩展图

Refer to caption

扩展图 1:我们的评估设置概览。我们考虑了三个阶段:检查推荐、诊断决策和治疗规划。a, b 展示了检查推荐的 1-turn 和自由轮次交互流程。c, d, e 分别展示了 1-turn、自由轮次和权威设置下诊断决策的评估案例。最后,f 展示了权威设置下的治疗规划任务。

9 扩展表格


扩展表 1:“一轮”和“自由轮次”下推荐检查的“所有疾病”和“罕见疾病”结果。括号内为 0.95 置信区间(CI)。
Method 模型大小 所有疾病 罕见病
1-turn Free-turn 1-turn Free-turn
Precision Recall Precision Recall Precision Recall Precision Recall

闭源推理 LLMs
OpenAI-o3-mini 33.75 (32.21, 35.29) 38.47 (36.85, 40.10) 33.57 (31.96, 35.19) 38.22 (36.59, 39.85) 33.73 (31.60, 35.86) 38.25 (36.03, 40.47) 32.94 (30.77, 35.11) 37.24 (35.04, 39.45)
Gemini-2.0-FT 22.77 (21.42, 24.12) 43.12 (41.41, 44.83) 24.09 (22.54, 25.63) 39.88 (38.21, 41.55) 21.93 (20.21, 23.64) 42.96 (40.56, 45.36) 22.73 (20.72, 24.75) 39.66 (37.30, 42.01)

开源推理 LLMs
DeepSeek-R1 671B 31.50 (29.97, 33.03) 43.61 (41.92, 45.30) 32.23 (30.58, 33.89) 40.67 (38.92, 42.42) 30.92 (28.81, 33.03) 43.73 (41.42, 46.04) 31.64 (29.36, 33.93) 40.18 (37.77, 42.59)
Qwen-QwQ 32B 24.43 (23.19, 25.67) 39.90 (38.22, 41.57) 25.39 (24.16, 26.63) 40.83 (39.15, 42.51) 24.08 (22.36, 25.80) 39.44 (37.15, 41.74) 25.47 (23.76, 27.18) 40.79 (38.51, 43.08)
Baichuan-M1 14B 41.78 (39.91, 43.64) 37.88 (36.31, 39.45) 41.99 (40.11, 43.87) 36.99 (35.40, 38.59) 41.58 (39.05, 44.12) 38.09 (36.01, 40.18) 42.06 (39.57, 44.56) 37.73 (35.58, 39.89)

扩展表 2:在 1 轮设置下,对“所有疾病”和“罕见疾病”的检查推荐推理结果。对于 DeepSeek-R1,我们评估其两种类型的推理,即正式回答部分和默认思考部分,分别记为“XX /XX”。0.95 的置信区间(CI)在括号中报告。
Method 模型大小 所有疾病 罕见病
效率 事实性 效率 事实性

闭源推理 LLMs
OpenAI-o3-mini 95.17 (94.47, 95.87) 95.89 (95.18, 96.61) 92.73 (91.16, 94.29) 95.90 (94.93, 96.87)
Gemini-2.0-FT 95.42 (94.79, 96.05) 98.75 (98.38, 99.13) 84.22 (82.62, 85.83) 98.98 (98.52, 99.43)

开源推理 LLMs
DeepSeek-R1 671B 98.59 /89.75 (98.17, 99.00) 96.79 /95.38 (96.17, 97.41) 95.96 /88.91 (94.83, 97.08) 97.02 /95.10 (96.17, 97.87)
Qwen-QwQ 32B 86.53 (85.34, 87.71) 94.87 (94.09, 95.64) 76.34 (74.02, 78.67) 94.53 (93.45, 95.62)
Baichuan-M1 14B 90.66 (89.66, 91.66) 96.87 (96.35, 97.39) 84.37 (82.26, 86.48) 97.06 (96.36, 97.76)

扩展表 3:1 轮、自由轮和预言评估下,所有疾病和罕见疾病的诊断结果。括号内为 0.95 置信区间(CI)。
Method 模型大小 所有疾病 罕见病
1-turn Free-turn Oracle 1-turn Free-turn Oracle
Accuracy Accuracy Accuracy Accuracy Accuracy Accuracy

闭源推理 LLMs
OpenAI-o3-mini 64.99 (61.97, 68.02) 67.19 (64.21, 70.17) 83.91 (81.58, 86.24) 63.75 (59.48, 68.01) 65.99 (61.78, 70.19) 85.54 (82.43, 88.65)
Gemini-2.0-FT 68.55 (65.60, 71.49) 68.76 (65.81, 71.70) 86.83 (84.69, 88.98) 66.40 (62.20, 70.59) 68.43 (64.31, 72.56) 88.60 (85.78, 91.41)

开源推理 LLMs
DeepSeek-R1 671B 71.79 (68.93, 74.64) 76.18 (73.47, 78.88) 89.76 (87.84, 91.68) 70.67 (66.63, 74.71) 77.60 (73.90, 81.30) 91.04 (88.51, 93.57)
Qwen-QwQ 32B 63.74 (60.69, 66.79) 74.71 (71.95, 77.47) 85.06 (82.80, 87.32) 64.15 (59.90, 68.41) 73.93 (70.03, 77.83) 86.15 (83.09, 89.21)
Baichuan-M1 14B 66.77 (63.78, 69.76) 61.23 (58.14, 64.33) 84.43 (82.13, 86.73) 67.21 (63.04, 71.38) 60.69 (56.36, 65.03) 88.39 (85.55, 91.23)

扩展表 4:在“所有疾病”设置下,1-回合和 oracle 评估中诊断决策推理的结果。对于 DeepSeek-R1,我们评估其两种类型的推理,即正式回答部分和默认思考部分,分别记为“XX /XX”。0.95 置信度区间(CI)见括号中。
Method 模型大小 一轮推理 甲骨文推理
效率 事实性 完整性 效率 事实性 完整性

闭源推理 LLMs
OpenAI-o3-mini 91.59 (90.37, 92.81) 83.15 (81.29, 85.01) 50.87 (48.60, 53.13) 94.33 (93.61, 95.05) 94.94 (94.23, 95.64) 75.42 (74.14, 76.70)
Gemini-2.0-FT 83.77 (82.56, 84.97) 87.17 (85.52, 88.83) 54.45 (52.20, 56.69) 95.89 (95.35, 96.43) 98.23 (97.84, 98.62) 83.28 (82.17, 84.40)

开源推理 LLMs
DeepSeek-R1 671B 95.86/88.24 (95.02, 96.71) 87.15/85.90 (85.54, 88.76) 54.88/67.59 (52.77, 56.99) 97.17/89.73 (96.65, 97.70) 95.03/96.31 (94.34, 95.71) 78.27/90.79 (77.17, 79.37)
Qwen-QwQ 32B 76.97 (75.30, 78.64) 88.14 (86.48, 89.80) 66.94 (63.83, 70.04) 71.20 (69.46, 72.94) 84.02 (82.23, 85.80) 79.97 (78.11, 81.83)
Baichuan-M1 14B 82.91 (81.34, 84.48) 88.62 (87.23, 90.01) 53.43 (51.17, 55.68) 92.80 (92.09, 93.51) 96.84 (96.35, 97.32) 75.11 (73.87, 76.36)

扩展表 5:“罕见疾病”诊断决策推理在 1 回合和 oracle 评估设置下的结果。对于 DeepSeek-R1,我们评估其两种推理类型,即正式回答部分和默认思考部分,分别记为“XX /XX”。0.95 置信区间(CI)以括号形式报告。
Method 模型大小 一轮推理 甲骨文推理
效率 事实性 完整性 效率 事实性 完整性

闭源推理 LLMs
OpenAI-o3-mini 92.73 (91.16, 94.29) 81.28 (78.58, 83.99) 49.83 (46.59, 53.07) 94.80 (93.83, 95.77) 95.02 (94.14, 95.89) 76.44 (74.74, 78.14)
Gemini-2.0-FT 84.22 (82.62, 85.83) 85.93 (83.53, 88.33) 54.06 (50.85, 57.28) 96.45 (95.74, 97.16) 98.39 (97.89, 98.89) 84.30 (82.75, 85.85)

开源推理 LLMs
DeepSeek-R1 671B 95.96/88.91 (94.83, 97.08) 84.76/84.70 (82.30, 87.22) 54.10/67.54 (51.05, 57.15) 97.61/90.33 (96.95, 98.27) 94.75/96.83 (93.77, 95.74) 79.00/91.14 (77.52, 80.48)
Qwen-QwQ 32B 76.34 (74.02, 78.67) 89.05 (86.79, 91.31) 66.53 (62.14, 70.92) 72.25 (69.83, 74.68) 84.30 (81.83, 86.77) 80.70 (78.16, 83.24)
Baichuan-M1 14B 84.37 (82.26, 86.48) 88.90 (87.06, 90.73) 53.11 (49.95, 56.27) 93.94 (93.07, 94.81) 96.91 (96.26, 97.56) 76.05 (74.31, 77.78)

扩展表 6:关于“所有疾病”和“罕见疾病”治疗规划的结果。我们计算了最终生成和推理过程的指标。对于 DeepSeek-R1,我们评估了其两种推理类型,即正式回答部分和默认思考部分,分别记录为“XX /XX”。0.95 置信区间 (CI) 放在括号中。
Method 模型大小 所有疾病 罕见病
治疗计划 推理过程 治疗计划 推理过程
Accuracy 效率 事实性 完整性 Accuracy 效率 事实性 完整性

闭源推理 LLMs
OpenAI-o3-mini 27.03 (23.09, 30.97) 94.67 (93.90, 95.44) 96.77 (96.06, 97.48) 70.63 (68.55, 72.71) 23.17 (16.65, 29.70) 95.06 (93.79, 96.33) 96.81 (95.51, 98.11) 69.86 (66.33, 73.38)
Gemini-2.0-FT 25.66 (21.80, 29.52) 93.66 (92.82, 94.49) 96.96 (96.34, 97.59) 75.89 (73.81, 77.98) 23.78 (17.20, 30.37) 94.41 (93.07, 95.74) 96.68 (95.57, 97.78) 77.10 (73.68, 80.51)

开源推理 LLMs
DeepSeek-R1 671B 30.51 (26.43, 34.58) 95.25 /88.93 (94.43, 96.08) 94.59 /95.93 (93.63, 95.56) 68.08 /80.48 (65.97, 70.20) 27.27 (20.41, 34.14) 95.37 /89.19 (93.92, 96.82) 95.22 /95.01 (93.62, 96.47) 68.28 /81.05 (64.57, 71.99)
Qwen-QwQ 32B 20.89 (17.12, 24.66) 84.76 (83.42, 86.10) 94.40 (93.44, 95.36) 77.66 (75.36, 79.96) 19.61 (13.25, 25.97) 83.31 (81.08, 85.54) 94.05 (92.00, 96.10) 78.74 (74.85, 82.63)
Baichuan-M1 14B 30.65 (26.57, 34.72) 88.47 (87.37, 89.57) 96.56 (95.80, 97.31) 70.18 (68.04, 72.32) 30.30 (23.22, 37.39) 87.87 (85.96, 89.77) 95.97 (94.62, 97.31) 69.56 (65.91, 73.21)

10 补充


10.1 定性案例研究


在本部分,我们将定性分析各种模型的性能。


为了清晰起见,我们先解释案例表左侧列的术语。


  • • 案件编号:表示 PMC 病例报告的唯一标识符。

  • • 类别:介绍本案例的分类,包括身体系统、疾病和病症,以及是否与罕见疾病相关。

  • • 病例摘要:提供基本患者信息,不包括辅助检查结果。

  • • 鉴别诊断:描述直接从病例报告中提取的真实诊断过程。

  • • 最终诊断:陈述患者的基本诊断事实,并总结原始病例报告中的相关陈述。

  • • 诊断结果:指确诊的疾病名称。第 1 例:指检查建议。

  • • 辅助测试拆分:展示了 GPT-4o 结构的真实辅助测试信息。

  • • 治疗方案分析:展示推荐治疗方案的真实理由(案例 4)。

  • • 治疗计划结果:描述首选治疗计划。


上述所有内容都是根据病例报告通过模型提取和整理的患者基本信息、真实诊断结果和治疗方案。


接下来的行显示了 LLMs 的响应。为了便于比较评估中的模型与实际案例的推理过程,我们把三个案例并排展示出来。 然而,对于涉及检查建议的任务 Case 1,原始报告通常没有说明推理过程,因此此处不显示真实值。在检查建议的 Case 1 中,


  • • 请求推理:代表在审核推荐过程中进行的推理过程。

  • • 请求输出:表示 LLM 请求的额外辅助测试信息。

  • • 提供的辅助测试:显示了提供的补充信息。有了这些信息,模型才能做出诊断决定。


对于前 3 个涉及诊断过程的案例,


  • • 诊断推理:展示诊断过程中的推理过程。

  • • 请求拆分:提供请求输出的结构化版本,用于计算精确度和召回率。

  • • 诊断:展示 LLM 得出的最终诊断。


在 Case4 中,我们比较了 Deepseek-R1 的思考链和思维过程的推理方法。


  • • 治疗推理:展示治疗规划过程中的推理过程。推理步骤的真实值为经过重新格式化的治疗规划分析,以逐步的方式展示推理理由。

  • • 预计治疗方案:指 LLMs 选择的治疗方案。


在所有案例中,准确率、精确率和召回率等指标的定义与方法部分中所述的定义一致。


10.1.1 考试建议


在这里,我们展示了一个案例研究,生动地说明了 1 轮考试推荐过程的实际实施。如补充图 1 所示,该案例展示了LLMs在症状识别和主动查询信息方面的表现。为了简洁明了地展示结果,我们仅展示了一个开源模型(DeepSeek-R1)和一个闭源模型(OpenAI-o3-mini)的响应。

初步分析。


在初步分析和信息查询的推荐阶段,模型表现出强大的性能。它们有效识别了呕吐、嗜睡、皮肤变黑和发育迟缓等关键症状,并利用这些指标指导了进一步的信息获取。 模型展示了特定症状组合提示肾上腺疾病,随后列出了可能的诊断,如先天性肾上腺增生症(CAH)、艾迪生病程和代谢紊乱。基于这些初步诊断,模型全面评估了患者症状,以排除排除一些可能性。 例如,DeepSeek-R1 根据患者无腹部肿块排除神经母细胞瘤等肿瘤疾病。当无法通过现有信息明确排除时,模型会考虑所需的进一步检查。对于假定为 CAH 的诊断,模型会考虑相关信息以提高诊断的准确性。 值得注意的是,他们认识到正常生殖器的重要性,认为这是关键信息,这挑战了 CAH 的典型临床表现,促进了更细致的诊断方法。


请求额外考试。


初步分析后,模型列出了多种实验室检查,包括血清电解质、皮质醇、ACTH、17-羟孕酮、肾素、醛固酮水平、血糖、影像学检查(腹部超声)、基因检测和尿液类固醇分布分析等,这表明模型在识别所需检查以区分不同诊断方面表现出色。 值得注意的是,在评估阶段,当考虑先天性脂质性肾上腺发育不全(CLAH)时,模型特别要求进行尿液类固醇检测或基因测试,以确定是否存在肾上腺酶的缺陷,这表明它对特定疾病及其特征有细致的理解。

[Uncaptioned image]
Refer to caption

补充图 1:案例 1。1-轮检查建议和诊断决策的案例。补充材料 10.1 开头已解释行标题的含义。


10.1.2 诊断决策


在本案例研究中,我们探讨了 DeepSeek-R1 和 OpenAI-o3-mini 在两种不同场景下的诊断推理过程:(1) 单次检查建议后的决策(补充图 1)。(2) 常见疾病(补充图 2)和罕见疾病(补充图 3)的诊断决策。


1 轮检查推荐后的诊断决策。


当提供额外信息时,模型会仔细分析每个项目。他们发现实验室测试结果,如低钠血症、高钾血症、低血糖、皮质醇和醛固酮缺乏,以及 17-羟孕酮水平低,与先前考虑的诊断相符。 它还考虑了基因测试结果(类固醇生成素(StAR)基因纯合突变)和超声检查结果(双侧肾上腺肿大),以进一步完善他们的理解和推断,这表明他们能够有效地将新信息整合到现有框架中,并相应地调整他们的思维。


最初,根据初始症状和可用信息,模型进一步排除或保留了初始分析中提出的可能性。例如,在诊断推理过程中,OpenAI-o3-mini 进一步根据患者无酸中毒排除经典 CAH,因为经典 CAH 通常伴有代谢性酸中毒。 DeepSeek-R1 还基于低 17-羟孕酮水平和无生殖器男性化,排除 21-羟化酶缺乏症(经典 CAH)。然后,他们利用基因检测结果和超声检查结果,确认了脂肪性先天性肾上腺增生症(CLAH)的诊断。这表明这些模型能够以逻辑和循证的方式利用信息,得出正确的最终诊断。


甲骨文诊断决策。


在提供完整信息的情况下,LLMs 通常能做出准确的诊断。在此分析中,我们主要评估推理效率、每一步的准确性、完整性(ground truth 推理步骤的召回率),以及最终的诊断准确性。


效率:DeepSeek-R1 采用简洁直接的方法。在第 2 例中,它迅速从症状开始,通过基因检测和临床表现确定 Traboulsi 综合征。同样,在第 3 例中,它早期排除恶性和感染性原因,重点关注特征和超声检查结果。相比之下,OpenAI-o3-mini 提供了更详细的分析步骤。 在病例 2 中,涉及更多的体检和眼部检查结果。在病例 3 中,通过排除与恶性肿瘤或感染相关的症状,强调了肿块的良性性质。这些信息有助于全面了解病情,但也增加了推理的复杂性。


事实性:虽然总体上与医学知识一致,但在某些情况下,模型会偏离。在第 2 例中,DeepSeek-R1 的推理步骤 4 并不完全符合事实。没有心血管或代谢异常并不能充分排除马凡综合征或 Weill-Marchesani 综合征,这些综合征的特点是特定的症状,如主动脉增宽或关节过度活动,身材矮小或短指畸形。 同时,OpenAI-o3-mini 在推理步骤 5 中关于 ASPH 基因突变的断言缺乏医学支持,可能导致了最终诊断的错误。然而,在病例 3 中,两个模型都严格遵循了医学原则,DeepSeek-R1 正确地将症状缺失与良性过程联系起来,OpenAI-o3-mini 准确地强调了在建议良性病因时考虑大量特征的重要性。


完整性:DeepSeek-R1 在两种情况下都表现出强大的能力,能够回忆并遵循专家推理步骤,特别是在识别关键线索方面,如病变的良性性质以及基因检测或组织病理学在诊断中的重要性。然而,OpenAI-o3-mini 在明确排除鉴别诊断方面能力有限。 第一病例未明确排除 Weill-Marchesani 综合征,第二病例虽有详细分析,仍未排除巴氏囊肿。


诊断准确性:在最终诊断中,两个模型都正确识别了病例 2 的 ASPH 突变。然而,OpenAI-o3-mini 将该状况误诊为 "阿斯伯格综合征 (ASPH 基因突变相关疾病)",这是误解,因为阿斯伯格综合征是一种发育障碍,与 ASPH 基因无关。这表明 OpenAI-o3-mini 的医学知识和推理能力有不足。 在第 3 例中,DeepSeek-R1 和 OpenAI-o3-mini 成功诊断了外阴平滑肌瘤。这与 GT 的一致性表明,当提供清晰的症状和诊断结果时,这两个模型能够进行准确的临床推理。

Refer to caption

补充图 2:案例 2。关于常见疾病的预言诊断案例。行标题的含义在补充内容 10.1 开头已解释。
Refer to caption

补充图 3:案例 3。罕见疾病的预言诊断案例。行标题的含义在补充内容 10.1 开头已解释。
Refer to caption

补充图 4:案例 4。一个罕见疾病的治疗计划。补充材料 10.1 开头已解释行标题的含义。

10.1.3 治疗计划


在这里,我们展示了一例罕见疾病,并评估了 Deepseek-R1 使用的治疗规划过程,详见补充图 4。我们重点分析了正式回答(简称为思维链)与 Deepseek-R1 生成的默认思考过程之间的差异。我们的分析基于推理的效率、每一步的准确性和完整性。


首先,我们来简要介绍这个病例。患者为一名 68 岁男性,被诊断为弹性皮质爱尔兰-丹洛综合征(弹性爱尔兰-丹洛综合征)。其主要症状包括皮肤极其脆弱、关节高度可活动和高血压。已知他对磺胺类药物过敏,曾引起全身性皮疹。关于他的用药情况,他被开了一种氢氯噻嗪-克霉唑(每日 37.5 毫克/25 毫克)以控制他的高血压。 此外,他有慢性肾脏疾病的家族史。


治疗规划准确性:在最终治疗规划方面,Deepseek-R1 提供了一份合理的治疗计划。在此案例中,Deepseek-R1 的输出与真实情况基本一致。然而,它引入了两项新建议:一是停用氢氯噻嗪,开始使用利尿素治疗高血压;二是使用扑热息痛片缓解骨关节炎疼痛。 我们的评估流程,包括一个搜索引擎来收集相关信息,确认了这些推荐是合理的。


考虑到患者家族史中的慢性肾脏疾病,改用赖诺普利是一个谨慎的选择,因为它符合管理此类高血压的临床指南。此外,鉴于患者已知的磺胺类药物过敏,停用三甲酯-氢氯噻嗪是合理的,因为存在交叉过敏反应的可能性。 此外,建议使用对乙酰氨基酚治疗骨关节炎疼痛是合适的,因为这是公认的治疗方法。


因此,根据这些评估结果,Deepseek-R1 提出的治疗方案正确且临床可行。


效率:我们研究了思维链和思维过程的有效性。总体而言,思维链的输出更简洁,而思维过程的输出更碎片化。从案例中可以看出,思维过程将整个问题的推理分为 9 步,而 Deepseek-R1 仅用了 5 步。此外,在第一步中,思维过程直接总结了整个病历,没有开始推理。 这被视为无效的推理步骤。因此,思维过程的效率较低,仅为 0.89,而思维链的效率为 1。


事实性:在这种情况下,思维过程大体上是真实且逻辑合理,每一步都基于相关的临床考虑。管理 dEDS 的建议,包括优先考虑皮肤保护、皮肤科转诊和温和的伤口护理,考虑到患者皮肤脆弱性是合适的。 由于风险较小,避免使用 NSAID 类药物治疗骨关节炎是合理的,尤其是考虑到患者的具体情况。根据患者对磺胺类药物过敏,建议更换用药,避免使用 HCTZ 治疗高血压,这是谨慎的,符合交叉反应的风险,尽管患者至今为止已能耐受。 虽然有些计划可能过于谨慎或不够具体,比如建议监测整体健康,但整体推理是准确的,逻辑清晰。


完整性:在这项研究中,我们发现 Deepseek-R1 的思考过程比链式思考更完整。Deepseek-R1 的思考过程涵盖了大部分真实理由,而链式思考在思考过程中遗漏了一些关键步骤。 具体来说,该思维链没有明确提到管理皮肤分离型埃 hlers-丹 los 综合征(dEDS)的总体目标,包括皮肤、骨科和心血管并发症的综合管理(步骤 1)。此外,它没有明确治疗目标,即提高身体功能,预防关节损伤和瘀伤,以及维持心血管健康(步骤 2)。 该思维模式还忽视了与血管脆弱性和主动脉扩张相关的心血管风险管理,如常规影像学监测和血压控制(步骤 5),并且没有强调多学科护理的重要性,以提供专业支持、有效管理症状和提高整体生活质量(步骤 6)。这导致了较低的完整性评分。

10.2 提示收集

Prompt 1.


提示将病例报告分类为“诊断”或“治疗计划”。


您是一位经验丰富的医生。我将提供一个病例报告的标题、摘要和讨论部分。请帮助我分析该报告主要关注诊断/治疗过程。如果报告主要关注诊断/治疗规划,请回答“是”。如果报告主要关注其他方面,请回答“否”。

Prompt 2.


用于从病例报告生成诊断数据的提示。


作为有经验的医生,您将收到一份重点诊断的病例报告。您的任务是:


- 为诊断,总结患者的关键信息。


总结鉴别诊断过程,包括每一步的理由以及考虑或排除特定诊断的原因。


总结患者的最终诊断。


确保摘要简洁准确,仅基于病例报告中的信息。请勿引用任何图像、表格或其他视觉数据,因为这些数据已不可用。


如果病例报告不完整或不符合总结要求,直接输出:‘我做不到。’

格式如下:


### 病例摘要 请提供详细的患者医疗史,包括主要症状、当前病史、既往病史、家族史、体格检查、辅助检查结果等必要信息,以便最终诊断。

- 患者信息:

- 主诉:如果没有,写“无”。


- 病史:若无病史,写“无”。


- 既往病史:如果没有,写“无”。


- 个人历史:如无,写 "无."


- 家族史:如果没有,写“无”。


- 体检:如果没有,写“无”。


- 辅助测试:若无,写“无”。


### 鉴别诊断过程


首先,根据患者的主诉和临床信息,初步列出可能的疾病清单。然后,将每个疾病与患者的症状、体征和检查结果进行系统比较,逐步排除。


然后,将根据临床证据解释纳入或排除每种诊断的理由,强调选择有助于确认或排除特定疾病的检查。过程将包括逐步排除可能性较小的诊断,最终得出最可能的诊断,并以临床推理及其支持证据进行合理化。


### 最终诊断(附详细解释)


整合患者的临床表现、检查结果和鉴别诊断,总结最终诊断。简要说明诊断的依据,并强调支持这一结论的关键因素。

### 诊断结果

直接输出诊断结果,无需额外解释。

Prompt 3.


用于从病例报告生成治疗计划数据的提示。


作为有经验的医生,您将获得全面的患者信息,用于治疗规划。您的任务是:


总结提供的临床数据,重点关注治疗的关键信息。避免讨论治疗后的信息。


- 总结患者的治疗方案,但不透露治疗结果。


- 请勿引用任何图片、表格或其他视觉数据,因为这些数据已不可用。


确保所有结论仅基于提供的信息。不要推断或生成额外信息。如果数据不足,输出 "I can’t."

所需格式:

### 全面的患者资料


整理医疗信息。不要涉及治疗后的信息,如治疗结果,以防止知识泄露。同时,也不要涉及治疗建议。只需陈述患者的情况。以下是一个模板,你可以用来整理信息。根据需要添加或删除内容。


- 患者基本信息:[年龄/性别/其他信息]

- 主诉:

- 病史:(包括当前用药或手术情况等)


- 既往病史:(包括手术史、用药史等)

- 过敏:
家族史:
- 社会历史:
体检:
- 实验室活动:
- 视觉事件:

- 最终诊断结果:


### 治疗计划分析


根据患者的状况和需求,总结治疗计划的主要目标。然后,在实施治疗计划之前,总结选择该计划的综合理由。


- 对象:治疗计划的目标


- 理由:结合综合患者资料,解释选择此治疗方案的理由


### 患者的选定治疗方案


直接用现在时态输出治疗过程,避免使用过去时。

Prompt 4.


用于身体系统分类的提示


请为以下病例报告中讨论的健康状况和疾病表型分类。参考提供的标题、摘要和讨论部分,选择最合适的类别。如果身体部位未列出,请输出“其他”。直接输出类别,无需额外说明。如果有多个类别,请使用\n 分隔。

类别:


血液、心脏和循环系统


骨骼、关节和肌肉

大脑和神经
消化系统

耳鼻喉科

内分泌系统
眼睛与视觉
免疫系统

肾脏和泌尿系统

肺与呼吸
口腔与牙齿

皮肤、头发和指甲


男性生殖系统

Prompt 5.


用于分类疾病和状况的提示


请为以下病例报告中的疾病和症状进行分类。参考提供的标题、摘要和讨论部分,从以下列表中选择最合适的类别。如果疾病和症状不属于任何类别,请输出“其他”。直接输出类别,无需额外说明。

类别:

Cancers
糖尿病
遗传/出生缺陷
感染
损伤和伤口

心理健康与行为

代谢问题

中毒、毒理学、环境健康


怀孕与生殖


物质使用和障碍

Prompt 6.


用于检查患者病历中是否提及某种罕见疾病的提示。


你是一名经验丰富的医生。你将获得一种罕见疾病的名称,以及一个病例报告的标题、摘要和讨论部分。你的任务是判断该病例报告是否与这种罕见疾病相关。如果相关,直接输出“是”;否则,直接输出“否”。

Prompt 7.


为 GPT-4o 设计的提示,让它扮演患者并提供所需信息。


你是一名医疗专家,正在为一名年轻医生指导患者病例。年轻医生会根据患者的详细情况和辅助测试结果,向你寻求额外的诊断信息。你的任务是提供准确和相关的信息,说明特定诊断信息的可获得性。

指南:

1. 你会收到患者的病例信息和所有相关测试结果。


2. 初级医生会询问需要哪些额外诊断信息。


3. 如果有相关辅助测试信息适用于请求的诊断领域,请准确提供详细信息。


4. 如果没有相关辅助测试信息可用于请求的诊断区域,只需说明:“没有相关辅助测试信息可用于此请求。”

患者案例
{case}

辅助测试结果
// 此处未定义但可自定义

交互示例:

医生:“患者做过影像学检查吗?”

您的回复:

如果有相关影像信息:


根据现有的辅助测试结果,患者进行了胸部 X 光检查,结果显示[具体表现]。


如果没有相关影像信息:


"此请求没有相关辅助测试信息。"


注意:您的回答应基于提供的患者病例信息和辅助测试结果,以事实为依据。避免猜测或假设,除非明确要求。

Prompt 8.


在单轮考试推荐模式下询问信息的提示。


请仔细阅读下面提供的患者案例摘要。你的任务是利用所有可用信息进行详细的诊断分析。请注意,由于信息有限,初步诊断可能涵盖多种可能的情况。如果数据不足以做出明确结论,请列出所需的额外诊断测试或信息。 不过,如果你能得出明确的诊断,请直接说。同时,请不要频繁要求提供信息。

患者案例摘要:
{case}

指南:

评估患者的症状、病史以及病例摘要中的所有相关信息。


根据你的分析,列出可能的鉴别诊断。


如果信息不足以做出结论性诊断,请说明需要进行的进一步检查或提供更多详细信息。


对话每轮始终遵循响应格式,###格式不变:


### 思考过程:


请逐步整理你的思考过程,每一步逻辑清晰,使用格式如 <步骤 1> 标记每个步骤。


本步骤的具体思考内容


本步骤的具体思考内容



本步骤的具体思考内容

### 结论:

[如果可能的话,先给出一个初步结论,或者总结当前的发现。


### 需要附加的信息:


[如果需要进一步信息,请具体说明所需测试或数据。如果已确诊且无需额外信息,直接输出“无需”即可,无需其他内容。

例如:
不需要。

or


1. 实验室测试:详细信息

2. 图像处理:细节

Prompt 9.


用于在 1 次随诊建议检查后做出诊断决定的提示。


请根据提供的额外信息,对患者进行最终诊断。

附加信息:
{additional_information}

指南:

评估患者的症状、病史以及病例摘要中的所有相关信息。


根据你的分析,制定一些鉴别诊断。


对话每轮始终遵循响应格式,###格式不变:


### 思维链:


请逐步整理你的思考过程,每一步逻辑清晰,使用格式如 <步骤 1> 标记每个步骤。


本步骤的具体思考内容


本步骤的具体思考内容



本步骤的具体思考内容

### 结论:

直接输出诊断结果,不加其他解释。

提示 10.


在免费轮次检查推荐设置下的第一轮提示。


请仔细阅读下面提供的患者案例摘要。你的任务是利用所有可用信息进行详细的诊断分析。请注意,由于信息有限,初步诊断可能涵盖多种可能的情况。如果数据不足以做出明确结论,请列出所需的额外诊断测试或信息。 不过,如果你能得出明确的诊断,请直接说。同时,请不要频繁要求提供信息。

患者案例摘要:
{case}

指南:

评估患者的症状、病史以及病例摘要中的所有相关信息。


根据你的分析,列出可能的鉴别诊断。


如果信息不足以做出结论性诊断,请说明需要进行的进一步检查或提供更多详细信息。


始终遵循以下对话中的格式,不改变###格式部分:


### 思维链:


请逐步整理你的思考过程,每一步逻辑清晰,使用格式如 <步骤 1> 标记每个步骤。


本步骤的具体思考内容


本步骤的具体思考内容



本步骤的具体思考内容


### 需要附加的信息:


[如果需要进一步信息,请具体说明所需测试或数据。如果已确诊且无需额外信息,直接输出“无需”即可,无需其他内容。

例如:
不需要。

or


1. 实验室测试:详细信息

2. 图像处理:细节

### 结论:

如果不需要额外信息,请给出最终诊断。否则,总结当前检查结果。

提示 11.


在自由轮次检查推荐设置下,后续轮次的提示。


这是你需要的额外信息。请继续分析。

附加信息:
{additional_information}


对话每轮始终遵循响应格式,###格式不变:


### 思考过程:


请逐步整理你的思考过程,每一步逻辑清晰,使用格式如 <步骤 1> 标记每个步骤。


本步骤的具体思考内容


本步骤的具体思考内容



本步骤的具体思考内容


### 需要附加的信息:


[如果需要进一步信息,请具体说明所需测试或数据。如果已确诊且无需额外信息,直接输出“无需”即可,无需其他内容。

例如:
不需要。

or


1. 实验室测试:详细信息

2. 图像处理:细节

### 结论:

如果不需要额外信息,请给出最终诊断。否则,总结当前检查结果。

提示 12.


指导 LLMs 根据患者案例进行诊断的提示。


请仔细阅读以下患者案例摘要,进行全面深入的诊断分析,并清晰给出最终的诊断结果。

{case}

格式遵循:

### 推理:

请逐步整理你的思路,每一步逻辑都用独立的段落表示。


本步骤的具体思考内容


本步骤的具体思考内容



本步骤的具体思考内容

### Answer:  

[仅输出诊断结果,无需其他解释。

提示 13.


提示 LLMs 根据患者案例制定治疗方案。


请仔细阅读以下患者案例摘要,进行全面深入的治疗方案分析,并明确为患者提供所选治疗方案。

{case}

格式遵循:


### 思考过程:


请逐步整理你的思考过程,每一步逻辑清晰,使用格式如 <步骤 1> 标记每个步骤。


本步骤的具体思考内容


本步骤的具体思考内容



本步骤的具体思考内容

### Answer:  

[只需输出对患者的选定治疗方案,无需其他解释。 ]

提示 14.


用于重新格式化非结构化事实依据的提示。


# 任务概述


给定一个包含多个推理步骤的医疗案例分析问题 [文本待组织],将其重新组织成清晰的步骤,每步用换行符分隔。



# 组织需求


将原始解决方案转化为清晰、结构化的推理过程,同时确保:


所有原始关键信息都保留,但如果多个句子讨论同一主题或服务于相同逻辑目的,可以合并成一个推理步骤。


- 没有添加新的解释或推理。


- 没有遗漏任何步骤。

# 需求


- 每个步骤必须是原子化的(每次得出结论)


- 每个步骤之间不应该有重复的内容。


- 答案的确定也被视为逻辑推理的一部分。

# 输出要求


1. 每个步骤内不应有换行,且每个步骤之间应使用单个换行。


2. 对于高度重复的推理模式,将其作为一个步骤输出。


3. 输出最多 10 步。

# 输出格式


<步骤 1> 本推理步骤的内容..


<步骤 2> 本推理步骤的内容..


<第 n 步 > 本步骤的论证内容..


以下是需要重组成推理步骤的文本:


[待整理的文本]

提示 15.


用于每个推理步骤效率分类的提示。

# 任务描述


请根据提供的医疗案例分析过程、之前的思考过程、已知的患者病历以及最终的推理目标,分析并确定当前思考步骤的类型。当前思考步骤应归类为以下类型之一:


1. 引注:简单引用、摘要或重述患者医疗记录中的信息,不产生新的推理或结论。


2. 重复:重复之前的思考过程,没有提供新信息或推进推理。


3. 推理:提供超出已知信息的新信息,从已知信息中得出新的结论,或提出新的可能性,推动思考过程,直接或间接地影响最终的推理目标。


4. 冗余:提供新的信息或可能性,这些信息或可能性对达成最终答案没有帮助,也没有推动推理过程。

# Note


在确定类型时,要充分考虑当前思维步骤、之前的思维步骤、患者的病历以及推理目标之间的逻辑关系和推理过程。如果当前思维步骤对应多种类型,根据其对推理目标的贡献,选择最合适的类型。保持判断的客观性和准确性,避免主观假设。

# 输出要求


仅输出你对当前思维步骤的分类,可能的分类是“引用|重复|推理|冗余”。不要输出其他内容。

# 输出格式


[引用|重复|推理|冗余]


现在,请按照上述指示对以下输入进行分类:

[当前思维步骤]


[所有之前的思考步骤]


[已知患者医疗记录]

[最终论证目标]

提示 16.


提示从医疗文本中提取关键词,以便搜索引擎使用。

# 任务描述


你将收到一个医疗分析文本描述 [文本描述待评], 该描述涉及对患者病情的分析和推理。你的任务是深入分析此描述,判断所描述的医学知识的正确性,以及支持逻辑推理的关键医学事实。为此,你需要确定判断所需的关键医学知识点,并提供检索这些知识点的关键词。 确保你的分析全面、准确,涵盖文本中的所有关键信息。请按照以下步骤操作:


1. 仔细阅读并理解提供的医疗分析文字描述([待判断的文字描述])。


2. 分析文章中的医学概念、症状、诊断方法和治疗原则等。


3. 识别文章中的逻辑推理步骤,并判断这些推理是否基于正确的医学知识。


4. 确定所需的医学知识点,以验证这些逻辑推理的正确性。


5. 提取关键词,方便检索这些医学知识点。

# 输出要求


直接输出所需关键词列表,用逗号分隔,不加其他内容。

# 格式遵循

关键词 1,关键词 2,..


以下是待评的文本描述:


[文本描述待评]

提示 17.


提示验证每一步是否符合医学标准。

# 任务描述


你将收到三种内容:


-患者案例摘要:包含患者关键信息的摘要,包括基本信息、病史、检查结果等。


-待评文本描述:关于患者病情、诊断或治疗的医学文本描述,需要您对医学知识进行判断。


已知正确信息:验证了与上述文本描述相关的医学知识,作为您判断的参考。


你的任务是深入分析提供的文本描述[文本描述待评],判断其所述医学知识是否准确,以及支持逻辑推理的关键医学事实是否正确。请按照以下步骤进行:


1. 根据 [患者案例摘要]、[已知正确信息] 和您的医学知识,判断描述的正确性;


2. 如果你对某个描述仍有疑问,列出该描述的搜索关键词。这些关键词要精准,有助于进一步验证不确定的描述。

# 输出要求


1. 输出格式必须为有效的 JSON 格式,不包含其他内容。


2. 在判断字段中输入你的判断,可选值 "Correct ||| Wrong ||| Search"。


3. 如果需要进一步搜索,请在 keywords_to_search 字段中列出不确定的问题关键词。如果判断为“正确”或“错误”,此字段应为空。

# 格式遵循:

‘‘‘

{{


判断为正确|错误|搜索


"keywords_to_search": "无|关键词"

}}

‘‘‘


以下是患者的信息、已知正确信息,以及需要判断的文本描述:

[患者案例摘要]


已知正确信息


[文本描述待评]

提示 18.


提示验证提供的推理步骤是否包含在生成的推理过程中。

# 任务概述


给定一个医疗案例分析问题的推理步骤,判断它是否出现在参考文献的推理过程中。

# 任务要求


评估待分析步骤的内容是否与参考推理过程中的任何步骤相同或相关。或者,参考推理过程是否涵盖了待分析推理步骤的核心逻辑或含义。

# 输出要求


仅输出你对[待分析的推理步骤]的判断结果,并提供“是|否”的可选值,不要输出其他内容。

# 输出格式

[好的 ||| 不好]


以下是待分析的推理步骤及参考推理过程:


[需要分析的推理步骤]


[参考推理过程]

提示 19.


用于提高最终诊断准确性的提示


你现在将收到两个诊断结果:一个是模型预测的结果([pred_diag]),另一个是已验证的正确诊断([gt_diag])。你的任务是判断模型预测的诊断是否正确。


在评估时,请考虑以下因素:


1. 同一种疾病可能有不同的名称,例如,“心脏病”也称为“心律失常”。


2. 例如,在语言表达上可能存在多样性,比如“心肌梗死”和“心脏病发作”可能指同一种疾病。


3.仅判断诊断结果是否正确,疾病原因、症状和治疗建议等信息不在评估范围内。


4. 如果预测诊断包含正确的诊断,但提到了一些额外并发症,这也算作正确。

# 输出要求

仅输出对模型预测的 [pred_diag] 的判断结果为“正确|错误”,不要输出其他内容。


# 格式遵循:

[正确|错误]


以下是模型预测的诊断结果和正确的诊断:

嗯,我需要处理这个预测任务。首先,我需要理解用户的需求。用户希望得到一个预测模型,用于诊断乳腺癌。他们提供了一个训练集,包含大约 1000 张乳腺 X 光片和 1000 张临床医生诊断的乳腺癌图像。此外,用户还提供了一个测试集,包含 1000 张乳腺 X 光片和 1000 张临床医生未诊断的乳腺癌图像。 接下来,我需要构建一个模型,该模型需要将 X 光片中的图像转换成可识别的模式,以便神经网络能够识别出是否有乳腺癌的存在和位置。我需要确保模型不仅能识别图像,还能预测每个图像中的癌症存在概率。 为了实现这一目标,我将使用深度学习技术,特别是卷积神经网络(Convolutional Neural Network,CNN)。CNN 擅长处理图像数据,因此在图像分类和检测任务中表现出色。我将对 X 光片中的图像进行预处理,使其符合特定的尺寸和格式,然后将这些预处理后的图像输入到模型中。 在训练过程中,我需要确保模型的结构合理,包含足够的层和过滤器来处理 X 光片中的细节和模式。同时,模型还需要能够区分正常的乳腺 X 光片和患有乳腺癌的 X 光片,以避免误识别。此外,模型还需要能够预测每个 X 光片中的癌症存在概率,以便用户能够快速了解图像中的癌症存在可能性。 最后,我需要评估模型的性能,确保它在测试集上的表现与训练集相似,同时在实际应用中能够准确地预测乳腺癌的存在和位置。通过这些评估,我将能够确保用户能够获得一个可靠且高效的预测工具,帮助他们更好地管理和治疗乳腺癌患者
{pred_diag}  

[gt_diag]
{gt_diag}

提示 20.


用于提高治疗计划准确性的提示

# 任务描述

作为专业的医疗治疗规划评估系统,您将收到两个治疗计划结果:一个是由模型预测的计划([预测计划]),另一个是已验证的正确计划([真实计划])。您的任务是判断模型预测的治疗计划是否准确。


在评估时,请考虑以下因素:


1. 如果预测的治疗和 gt 治疗的意义完全相同,那么就是正确的。


2. 如果预测的治疗计划中包含正确的治疗方案 [gt treatment],但提到了一些额外护理,这也是正确的。


3. 考虑到同样的疾病有时也会有不同的治疗方法。如果模型的预测与最终治疗(gt Treatment)不完全一致,可以参考其他信息来做出判断。


4. 如果预测的治疗和真实治疗 ([gt 治疗]) 含义不同,且附加信息中没有证据表明该预测治疗适用于该疾病,则视为错误。

# 输出要求

仅输出对模型预测的[治疗结果]的判断结果为“正确|错误”,不要输出其他内容。


# 格式遵循:

[正确|错误]


以下是模型预测的结果和正确的治疗方案:

[预测的治疗]
嗯,用户给了一个任务,让我用 Python 写一个程序,来处理一段英文文本,生成一段中文翻译。首先,我需要理解用户的需求。他们可能是在处理一些文本,需要将英文内容转换成中文,可能是为了翻译、文档整理或者其他用途。 用户特别强调要使用 Python,这意味着我需要确保程序符合 Python 的标准,或者至少兼容。我应该注意语法错误、效率问题,以及可能影响性能的因素。此外,用户可能希望程序易于维护和扩展,所以代码结构应该清晰,注释充足。 接下来,我需要分析用户提供的文本长度和结构。他们可能希望程序能够处理类似长度的文本,并且可能需要处理不同的段落或句子结构。因此,我需要确保程序能够处理不同长度的文本,同时保持高效。 用户可能没有提到,但深层需求可能是希望程序能够处理更长的文本,或者在处理过程中自动检测并处理标点符号和格式。此外,用户可能希望程序能够处理多种格式的文本,比如带有特殊符号或格式的文本,这可能需要在处理时进行调整。 在编写程序时,我需要考虑以下几点: 1. **数据输入**:获取用户提供的英文文本,并将其转换为可读的中文版本。 2. **格式处理**:确保在转换过程中,标点符号、段落结构、特殊符号等都得到正确的处理。 3. **错误检查**:检查文本转换过程中是否有语法错误、格式错误,确保输出结果准确无误。 4. **效率**:编写一个高效的程序,避免使用过多资源,确保在短时间内完成转换。 5. **可维护性**:代码结构清晰,注释充足,方便后续维护和扩展。 总结一下,我需要编写一个准确、高效且格式保持一致的 Python 程序,处理一段英文文本,生成中文翻译。这可能涉及到处理不同长度的文本,以及处理特殊格式和标点符号。通过这些考虑,我能够确保程序能够满足用户的需求,提供高质量的结果。 ```python # Import Libraries import os import re import string # Read Input Text input_text = os.read(os.environ['INPUT_PATH'], 'UTF-8') # Process Input Text output_text = process_text(input_text) # Check for Errors def process_text(input_text): # Check for Syntax Errors source = re.split(r'[^a-zA-Z]', input_text) if len(source) < 2: return 'Error: Input Text is Empty' else: return 'Process Text: ' + ''.join(source) # Output Result print(output_text) # Check for Errors def process_text(input_text): # Check for Syntax Errors source = re.split(r'[^a-zA-Z]', input_text) if len(source) < 2: return 'Error: Input Text is Empty' else: return 'Process Text: ' + ''.join(source) # Output Result print(output_text) # Check for Errors def process_text(input_text): # Check for Syntax Errors source = re.split(r'[^a-zA-Z]', input_text) if len(source) < 2: return 'Error: Input Text is Empty' else: return 'Process Text: ' + ''.join(source) # Output Result print(output_text) # Check for Errors def process_text(input_text): # Check for Syntax Errors source = re.split(r'[^a-zA-Z]', input_text) if len(source) < 2: return 'Error: Input Text is Empty' else: return 'Process Text: ' + ''.join(source) # Output Result print(output_text) ```

[gt 治疗]
这是一个占位符,用于指定一种特定的治疗方法或程序。如果需要指定具体的治疗方法或程序,可以使用此占位符


[附加信息]

{additional_info}

提示 21.


提示将辅助考试的其他信息转换成结构化格式。

# 任务概述

你将收到一个辅助诊断和治疗大型模型的输出,该模型详细说明了患者诊断分析所需的额外信息[原始输出文本待组织]。你的任务是将这些内容分类到不同的信息需求类别,并以 JSON 字典格式输出。


# 组织需求


1. 将原始所需信息按不同的信息需求分类。


2. 每个点都应明确标明:


- "type": 测试项的主要类别(例如,实验室测试、影像检查、病史询问等)


- "test_name": 测试项目的具体名称(例如,MRI 扫描、CT 扫描、甲状腺功能检查、肿块活检等)


- "info_required": "所需信息的具体内容或目的(例如,排除恶性肿瘤,更好地观察鼓膜和中耳结构,评估视网膜功能等)"


3. 保留所有原始内容,但如果多次检查用于获取相同的信息或目的,可以合并为一个项目,但“test_name”字段应包含所有检查。


4. 不要添加新的内容;所有信息应来自原文[原始输出文本待整理]。


5. 不要省略任何步骤。

# 输出要求

1. 输出格式必须为有效的 JSON 格式,不含其他内容。


2. 在“type”字段中输出测试项目的类型;在“test_name”字段中输出测试项目的具体名称;在“info_required”字段中输出所需信息的具体内容或目的。

# 输出格式
“‘json
{{

"type": "测试项目的主要类别"


"test_name": "测试项目的具体名称",


"info_required": "所需具体信息或测试目的"

}}
“‘


以下是需要整理的原始文本:


[原始输出文本待组织]

{info_required}