一个用于疾病诊断辅助的通用医学语言模型|江阴雨辰互联

一个用于疾病诊断辅助的通用医学语言模型

Basic Information

英文标题：A generalist medical language model for disease diagnosis assistance
中文标题：一个用于疾病诊断辅助的通用医学语言模型
发表日期：08 January 2025
文章类型：Article
所属期刊：Nature Medicine
文章作者：Xiaohong Liu | Guangyu Wang
文章链接：

Abstract

Para_01

在医疗保健中，提供准确的诊断至关重要，它是通往适当和及时治疗的关键入口。
尽管最近的大型语言模型（LLMs）在少量或零样本学习中展示了令人印象深刻的性能，但它们在临床诊断中的有效性仍未得到证实。
我们在此介绍 MedFound，这是一个具有 1760 亿参数的通用医学语言模型，预先训练在一个大规模语料库上，该语料库来源于多样化的医学文本和真实的临床记录。
我们进一步通过基于自引导策略的链式思维方法微调了 MedFound，以学习医生的推理诊断，并引入了一个统一的偏好对齐框架，使其与标准临床实践对齐。
广泛的实验表明，我们的医学 LLM 在八种专科的同分布（常见疾病）、外分布（外部验证）和长尾分布（罕见疾病）场景中，优于其他基线 LLM 和专用模型。
进一步的消融研究证明了我们医学 LLM 训练方法中关键组件的有效性。
我们进行了一项全面评估，涉及人工智能（AI）与医生对比、AI 辅助研究和人类评估框架，以考察 LLM 在诊断中的临床适用性。
我们提出的框架包含了八个临床评估指标，涵盖了诸如病历总结、诊断推理和风险管理等能力。
我们的研究结果表明，该模型在临床工作流程中协助医生进行疾病诊断是可行的。

Main

Para_01

准确诊断的提供在医疗保健领域中起着至关重要的作用，并且是所有医生的基本技能。
诊断过程通常包括通过分析症状、体征和检查结果来识别疾病，以制定诊断和鉴别诊断，这是一个扩展推理的过程。
尽管接受了广泛的医学培训，诊断仍容易出错，在初级保健水平上的误诊率估计为20%，这约占医疗实践中所有不良事件的17%。
几十年来，人们付出了巨大的努力来提高疾病诊断的准确性和可及性，包括传统的基于规则的临床决策支持系统（CDSS）以及提取结构化特征以开发临床预测模型的机器学习技术。
然而，对结构化输入和专门培训的依赖既复杂又耗费资源。
在主要医学预测算法的开发与其在多样化医疗环境中的实际临床应用之间仍然存在显著差距。

Para_02

近年来，预训练语言模型（PLMs）的出现极大地推动了自然语言处理（NLP）领域的发展。
这些模型首先通过大规模语料库上的自监督学习任务进行预训练（例如，BERT 的掩码语言建模和 GPT 的自回归语言建模），然后在特定下游任务上进行微调。
进一步研究表明，当模型规模、数据集规模和计算资源足够大时，大型语言模型（LLMs）可以在多个 NLP 任务中展现出新兴的少样本和零样本特性。
PLMs 和 LLMs 的最新进展引起了人们对其在生物医学领域的应用兴趣，例如 ClinicalBERT、NYUTron、GatorTron 和 BioGPT 等针对该领域的预训练语言模型。
这些模型展示了转变任务特定范式和解决医疗预测分析中‘最后一英里’挑战的潜力，从而推动了多功能临床应用的开发。

Para_03

尽管 LLM 技术在生物医学领域具有潜力，但对其功能的利用仍处于初步阶段。
大多数研究集中在 LLM 在医学中的使用案例报告，尤其是 ChatGPT 的应用。
目前缺乏为真实临床环境专门设计且公开可用的高质量 LLM 模型。
虽然少量研究探讨了将临床知识整合到 LLM 中以完成医疗问答或对话任务，但它们在临床诊断推理方面的能力尚未得到充分开发或评估。
此外，生成式 LLM 可能会出现虚构事实的情况，这可能会对依赖其推荐诊断结果的临床医生造成危害。
因此，采用对齐技术确保这些模型与临床诊断知识目标一致，并能够‘安全地帮助用户’变得至关重要。
当前对 LLM 模型的评估通常基于有限基准的自动化评估，突显了在真实临床环境中对基于 LLM 的工具进行全面评估的必要性。

错误！！！ cannot unpack non-iterable NoneType object

Fig. 1: Schematic illustration of the development and evaluation of our diagnostic generalist.

- 图片说明

◉ 我们预先训练了一个包含176亿参数的MedFound，其基于一个大型医学语料库，包括PMC-CR、MIMIC-III-Note、MedDX-Note和MedText。◉ 我们通过诊断推理对MedFound进行微调，并结合诊断层次偏好和有用性偏好对其进行了对齐，从而得到了MedFound-DX-PA。◉ 在真实场景中进行诊断性能基准测试。◉ 我们在ID、OOD和长尾疾病分布设置下进行了评估，涵盖八个专科的疾病，包括肺病学、胃肠病学、泌尿科、心脏病学、免疫学、精神病学、神经病学和内分泌学。◉ 对AI系统的临床评估。◉ 我们与医生一起进行了评估，包括对比研究、AI辅助研究和在人类评估框架下的定性研究。

Para_05

我们进行了一项全面评估，以评估 MedFound-DX-PA 在实施过程中的诊断性能。
首先，我们使用来自三个不同专科场景的实际临床记录建立了一个基准研究，包括同分布（ID）、异分布（OOD）以及长尾疾病分布设置。
结果表明，MedFound-DX-PA 在多个维度上优于现有模型，尤其是在诊断以前研究中被忽视的罕见疾病方面表现突出。
此外，我们开展了一系列前瞻性临床研究，包括人工智能（AI）与专科医生的对比研究，以及在工作流程内的进一步 AI 辅助研究。
我们还引入了一个称为 CLEVER（用于诊断中有效推理的临床评估）的人类评价框架，该框架使用八个指标来探讨当前大语言模型在真实世界医疗场景中的可行性和局限性。
这些研究表明，我们提出的大语言模型作为通用医学人工智能（GMAI）在医学诊断领域具有潜力。

Results

Overview of the proposed LLM and dataset characteristics

所提出的大规模语言模型和数据集特征概述

Para_01

在这项研究中，我们提出了 MedFound，这是一个为医疗应用定制的预训练大语言模型，以及 MedFound-DX-PA，它专门针对诊断分析应用进行了训练。
为了开发和评估我们的模型，我们构建了三个数据集——MedCorpus、MedDX-FT 和 MedDX-Bench——其中 MedCorpus 和 MedDX-FT 用于训练，而 MedDX-Bench 用于评估。
训练过程包括三个阶段：预训练、微调和对齐。

Para_02

在第一阶段，我们继续在通用领域的大型语言模型 BLOOM-176B 上进行预训练，从而得到了 MedFound。
为了开发 MedFound，我们整理了一个大规模的医学语料库数据集 MedCorpus，其中包含来自四个数据集的总计 63 亿个文本标记：MedText、PubMed Central Case Report (PMC-CR)、MIMIC-III-Note 和 MedDX-Note。
这些数据集来源于多样化的临床代表性资源：医学教科书和临床指南、文献中的患者病例报告、开放获取的临床记录以及医院系统提供的真实世界电子健康记录（EHR）专有数据集（详见方法部分）。
因此，在 MedCorpus 上的预训练使 MedFound 能够编码广泛的医学知识和实践经验，使其成为医疗领域广泛应用的基础工具。

Para_03

在第二阶段，我们对 MedFound 进行了微调，以模仿医生的诊断推理过程，从而得到了 MedFound-DX。
我们整理了一个名为 MedDX-FT 的数据集，其中包含医疗记录及相关诊断推理示例，用于微调模型。
医生被要求根据实际的医疗记录，手动构建他们的临床推理过程示例，以诊断给定的患者病例。
标注界面如扩展数据图 2a 所示。
基于手动构建的示例集合和 109,364 份电子健康记录（EHR），我们采用了一种自引导策略，以增强大语言模型（LLM）自动生成高质量诊断推理（中间推理步骤）的能力，而无需大量专家的工作投入。

Para_04

在第三阶段，我们通过采用统一的PA框架进一步优化了模型在实际临床应用中的实用性，该框架整合了‘诊断层次偏好’和‘有用性偏好’。
对于‘诊断层次偏好’，我们利用ICD-10树的层次结构来引导大语言模型与已建立的疾病知识和诊断流程保持一致。
对于‘有用性偏好’，大语言模型通过评估给定诊断推理的有用性直接与专家反馈对齐（扩展数据图2b），从而确保与人类价值观的一致性。
两组偏好均使用直接偏好优化（DPO）方法进行优化，这是一种简单的无需强化学习的算法，简化了偏好学习的流程。

Para_05

在评估阶段，我们构建了 MedDX-Bench，这是一个包含三个临床数据集的基准——MedDX-Test、MedDX-OOD 和 MedDX-Rare——用于全面评估大语言模型在真实世界临床环境中的诊断能力。
MedDX-Test 数据集是对 MedFound-DX-PA 在各专科领域的诊断性能进行内部评估的数据集，包含 11,662 份与训练数据分布相同的医疗记录。
MedDX-OOD 和 MedDX-Rare 数据集作为外部验证集构建，数据来源为中国湖北省的一个不同地理区域，用于评估模型在分布外（OOD）情况下的表现。
MedDX-OOD 数据集包含 23,917 份常见疾病的记录，这些疾病同样出现在 MedDX-FT 中；而 MedDX-Rare 数据集则包括 20,257 份记录，涵盖 2,105 种长尾分布的罕见疾病。
评估数据集涵盖了日常诊断流程中的电子健康记录（EHR），包括主诉、现病史、体格检查、实验室检验和影像学报告。
这三个数据集在不同疾病多样性条件下对模型的泛化能力提出了挑战。

Performance of the LLMs on common diseases across specialties

大型语言模型在各专科常见疾病上的表现

Para_01

首先，我们在 ID 和 OOD 环境下评估了 MedFound-DX-PA 在跨专科诊断常见疾病方面的性能。
我们将其与领先的大型语言模型进行了比较，包括开源的 MEDITRON-70B、Clinical Camel-70B 和 Llama 3-70B，以及闭源的 GPT-4o。
MEDITRON-70B 和 Clinical Camel-70B 都是医学预训练的大规模语言模型，并在医学任务中表现出优异的性能。
Llama 3-70B 是流行的开源 Llama 系列的一员，在各种领域特定任务中表现出色。
GPT-4o 是 ChatGPT 的最新版本，据报道其知识库更广泛，问题解决能力更强，在诊断任务中显示出潜力。
关于这些大规模语言模型的详细信息可以在补充表 2 中找到。
所有开源模型都经过微调，并采用自一致性（SC）解码方法来评估其诊断能力。

Para_02

在身份设定评估中，我们构建了 MedDX-Test 数据集，涵盖了八个专科领域中代表 99% 人口的常见细粒度疾病。
例如，我们评估了模型诊断自身免疫性甲状腺炎（一种特定的甲状腺疾病）的能力，而不仅仅是将其归类为一般的甲状腺疾病。
在所有专科领域的平均表现上，我们的模型表现出色，实现了 84.2% 的诊断前三准确率（95% 置信区间：83.5%，84.8%）。
这相对于其他四个模型有了显著提升，这些模型的平均准确率范围从 64.8%（95% 置信区间：63.9%，65.6%；Clinical Camel-70B）到 56.8%（95% 置信区间：55.9%，57.7%；MEDITRON-70B）。
其中，GPT-4o 达到了 62.0% 的诊断准确率（95% 置信区间：61.1%，62.8%），略低于表现次优的模型 Clinical Camel-70B。
我们按照专科（例如心脏病学、神经病学和内分泌学）对结果进行了分层分析，以提供关于基于大语言模型的诊断通才的详细见解。
我们的 MedFound 在所有大语言模型中始终表现最佳，准确率范围从 82.4% 到 89.6%。
我们还使用了 Top-1 准确率、宏准确率、接收者操作特征曲线下面积（ROC-AUC）以及精确率-召回率曲线下面积（PR-AUC）等指标对模型进行了评估，结果同样表明 MedFound-DX-PA 的卓越性能。

Fig. 2: Performance of the LLMs for diagnosis of common diseases across various specialties.

- 图片说明

◉ a到d，对比了MEDITRON-70B、Llama 3-70B、Clinical Camel-70B、GPT-4o和我们的MedFound-DX-PA在综合诊断任务中的Top-3准确率。◉ 结果显示在ID环境（n = 11,662）（a和b）以及OOD环境（n = 23,917）（c和d）中覆盖八个专科的情况。◉ a和c表示整体性能，而b和d表示按专科分类的性能。◉ e和f，对比了大型语言模型在八个专科特定的ID和OOD环境中的Top-3准确率。◉ 柱状图表示平均值±95%置信区间。

Para_03

此外，我们在 MedDX-OOD 数据集上评估了我们模型的泛化能力，该数据集中的病例来自外部真实世界环境。
图 2c,d 分别展示了每个专科的平均性能和分层性能。
MedFound-DX-PA 在所有专科中显著优于基线模型（所有 P < 0.001）。
结果表明，我们的模型作为诊断通才在各种临床疾病中具有良好的泛化能力，尤其是在细粒度疾病诊断方面。

Para_04

我们还将我们的诊断通才扩展到需要特定医学领域专业知识的专科场景中。
通过为大型语言模型（LLM）为基础的通才设置专科特定的情境提示，我们赋予了它疾病专家的角色（详见方法部分）。
在MedDX-Test数据集上，我们的模型达到了87.9%（95%置信区间：87.2%，89.6%）至93.9%（95%置信区间：92.6%，95.9%）的前三名准确率；在MedDX-OOD数据集上，准确率范围为85.8%（95%置信区间：83.4%，88.6%）至90.2%（95%置信区间：88.7%，93.5%），这表明我们的模型能够适应这些专科场景的精度要求。
我们还使用开放访问的数据集，在多分类、特定疾病的任务上将我们的MedFound与现有的专科决策支持工具进行了比较（补充表4）。
结果表明，我们的模型性能与专科工具相当或更优。

Performance of the LLMs on rare diseases

大型语言模型在罕见疾病方面的表现

Para_01

我们扩展了实验，以考察大语言模型在诊断由长尾分布特征的罕见疾病方面的表现。
先前的模型在识别常见疾病方面显示出有效性，但在少样本或零样本场景中对罕见疾病的分类性能往往会下降。
如图3a所示，疾病的分布呈现出长尾分布，常见疾病覆盖了99%的人口，而剩下的1%则包括了多种较少见的疾病。
为了评估大语言模型在诊断广泛病症范围内的适应性，我们在MedDX-Rare数据集上使用了零样本学习设置，该数据集包含从八个专科领域长尾分布中提取的2,105种罕见疾病（图3b和补充数据图6a）。
图3c中的条形图展示了MedFound-DX-PA在每个专科内每种细分类别的罕见疾病上的Top-3准确率，雷达图则显示了每个专科在各种疾病中的整体表现（详见方法部分）。
MedFound-DX-PA在所有专科中表现出色，准确率范围从77.4%（95%置信区间：76.8%，78.0%）到84.4%（95%置信区间：83.9%，84.9%），平均值为80.7%（95%置信区间：80.1%，81.2%）（图3c）。
GPT-4o取得了第二好的表现，准确率范围从57.2%（95%置信区间：56.5%，57.9%）到63.1%（95%置信区间：62.4%，63.8%），平均值为59.1%（95%置信区间：58.4%，59.8%）。
这一趋势也在Top-1宏准确率中得到了体现（补充数据图6b）。

Fig. 3: Performance of the LLMs for diagnosis of rare diseases across various specialties.

- 图片说明

◉ 疾病流行率的分布。横轴表示从常见到罕见的一系列疾病。纵轴表示受每种疾病影响的人口数量。曲线分为两个区域。蓝色区域代表常见疾病（累计流行率≥99%），绿色区域代表罕见疾病（累计流行率<1%）。◉ 八个专科中疾病的数量分布（n = 20,257）。蓝色条形代表常见疾病的数量，绿色条形代表罕见疾病的数量。◉ MEDITRON-70B、Llama 3-70B、Clinical Camel-70B、GPT-4o 和我们的 MedFound-DX-PA 在八个专科中诊断罕见疾病的 Top-3 宏观准确率比较。雷达图显示了大型语言模型在每个专科表现中的 Top-3 宏观准确率，通过汇总疾病流行率的八分位数得出。条形图显示了 MedFound-DX-PA 对每个专科内个别疾病的 Top-3 准确率。◉ 大型语言模型在八个专科中诊断罕见疾病的 Top-3 微观准确率比较。条形图表示平均值±95%置信区间。

Para_02

通过 Top-3 微观准确率进一步评估了大语言模型的平均性能，该指标在每个专科中对个体给予平等考虑，以减轻小样本类别带来的影响，如图 3d 所示。
表现第二好的 LLM 模型 GPT-4o 达到了中等水平的表现，其准确率范围为 77.4%（95% 置信区间：76.9%，78.0%）到 85.8%（95% 置信区间：85.3%，86.2%），平均准确率为 82.1%（95% 置信区间：81.6%，82.7%）。
相比之下，MedFound-DX-PA 在所有专科中表现出色，显著提升了性能，准确率范围为 87.4%（95% 置信区间：87.0%，87.9%）到 93.0%（95% 置信区间：92.7%，93.4%），平均准确率为 89.2%（95% 置信区间：88.8%，89.6%）。
其他指标如 ROC-AUC 和 PR-AUC 同样表明 MedFound-DX-PA 相较于其他 LLM 模型具有更优越的表现（扩展数据图 6c 和补充表 3）。
为了进一步研究模型在涉及不同患病率的长尾疾病分布中的诊断性能，我们将这些疾病分为超罕见病（患病率 ≤0.1%）和罕见病（患病率 0.1–1%）组（扩展数据图 6d 和补充表 5）。
结果表明，MedFound-DX-PA 在这两组之间的表现始终保持一致的良好水平。
这可以归因于 MedFound-DX-PA 的生成能力及其对诊断结构的全面理解，使其能够灵活适应细粒度的罕见疾病。

Performance comparison between the LLM versus physicians

大型语言模型与医生的性能对比

Para_01

在这里，我们将基于大规模语言模型的诊断系统与内分泌科和呼吸科的人类医生的诊断能力进行了比较。
我们招募了18名医生，其中包括9名内分泌科医生和9名呼吸科医生，并根据临床经验将他们分为三组：初级（n = 3）、中级（n = 3）和高级（n = 3）。
每位医生被分配了150个病例进行诊断。
扩展数据图3a展示了医生在此次评估任务中使用的界面。
医生的表现是通过与专家组确定的金标准诊断进行对比来衡量的。
在呼吸科领域，MedFound-DX-PA实现了72.6%的诊断准确率，超过了初级医生（60.0%）和中级医生（67.7%），但略低于高级医生（76.2%）。
同样，在内分泌科领域，人工智能的准确率（74.7%）超过了初级医生（69.4%）和中级医生（72.5%），并且与高级医生（75.2%）相当。
这些结果表明，我们的基于大规模语言模型的诊断通才在两个专科中均超越了初级和中级医生，并且与高级医生表现相似。

Fig. 4: Performance evaluation between the AI system and human physicians for diagnosis.

- 图片说明

◉ a,b，在肺科学（a）和内分泌学（b）中，MedFound-DX-PA 和人类医生诊断推理的性能比较（n = 900）。◉ 条形图表示人工智能系统（橙色）、人类医生（浅蓝色）以及使用 MedFound-DX-PA 辅助的医生（深蓝色）的诊断准确性。◉ 灰色虚线代表 MedFound-DX-PA 的性能。◉ c，在八个维度上对 MedFound-DX 和 MedFound-DX-PA 进行了人类评估，包括‘病例理解’（P = 0.032）、‘临床推理’（P = 0.006）、‘医学指南与共识’（P = 0.180）、‘鉴别诊断的相关性’（P = 0.036）、‘诊断的可接受性’（P < 0.001）、‘不准确内容’（P = 0.002）、‘偏差与不公平性’（P = 0.015）和‘潜在危害的可能性’（P = 0.009）。◉ 条形图显示了 MedFound-DX（浅橙色）和 MedFound-DX-PA（深橙色）的平均值 ± 95% 置信区间。◉ 统计分析采用双尾 t 检验完成。◉ P < 0.001，P < 0.01，P < 0.05，NS（无显著性）P > 0.05。

Performance of the LLM-assisted diagnosis within workflows

在工作流中使用LLM辅助诊断的性能

Para_01

我们进一步探讨了大语言模型在临床工作流程中提高医生诊断性能的潜在作用。
当提供去除诊断信息的电子健康记录（EHR）时，来自两个专科的初级和中级医生进行了初步诊断。
两周后，他们参考了人工智能生成的内容来制定第二次诊断（扩展数据图 3b）。
在呼吸科领域，人工智能辅助显著提高了初级和中级医生的准确性，分别提高了 11.9% 和 4.4%，其表现接近人工智能系统，但仍略低于资深医生（图 4a）。
例如，在图 5a 所示的一个病例中，医生最初根据患者的现病史和实验室检查中的 C-反应蛋白水平诊断为‘急性支气管炎’。
然后，在人工智能生成内容的帮助下，该内容强调了患者反复发作支气管炎的历史，医生将诊断修订为准确的‘慢性支气管炎急性加重’。

Fig. 5: Examples of AI-assisted diagnosis evaluation.

- 图片说明

◉ a，b，MedFound-DX-PA 模型生成的诊断推理示例，用于协助医生进行诊断过程。◉ a，用于肺科医生评估的病例。◉ b，用于内分泌科医生评估的病例。◉ 每个病例都包含患者的症状、病史和检查信息。◉ 医生在首次审阅临床记录后做出初步诊断，并在参考人工智能提供的诊断推理后重新诊断。

Para_02

在内分泌学领域，初级和中级内分泌学家的诊断准确率在人工智能辅助下分别显著提高到74.0%（增加了4.6%）和78.8%（增加了6.3%）。
值得注意的是，在人工智能的帮助下，中级内分泌学家的表现超过了资深内分泌学家，这表明人工智能有潜力将诊断准确率提升到超越大多数经验丰富的医生的水平。
例如，如图所示，当医生在患者的实验室检查中发现促甲状腺激素水平升高时，会初步诊断为亚临床甲状腺功能减退症。
在使用人工智能辅助重新评估时，模型突显了之前被忽略的抗甲状腺过氧化物酶抗体水平升高，提示可能存在潜在的自身免疫性甲状腺疾病。
因此，医生将诊断修订为‘自身免疫性甲状腺炎’。
这些结果表明，医生可以通过大型语言模型的帮助突出重要的临床数据，从而提高医疗服务的质量。

Human evaluation framework for AI’s diagnostic capabilities

人工智能诊断能力的人类评估框架

Para_01

以往的评估指标主要集中在准确率或自然语言生成得分（例如，BLEU 或 ROUGE）等度量上，这些指标无法反映推理诊断过程的临床质量。
为了解决这一问题，我们提出了一种针对现实世界诊断中人工智能的系统性评估框架，该框架通过文献回顾和与资深医生的咨询建立起来。
CLEVER 框架将基于大语言模型的系统能力分为八个临床评估指标，揭示了大语言模型在符合医学标准方面的优势和局限性（详见方法部分）。
在评估过程中，从上述两个专科招募了六位资深医生，采用从 1 到 5 的李克特量表评分系统（图 4c 和扩展数据图 4）。

Para_02

在‘医学病例理解’中，专家小组评估了大语言模型对医学病例的理解和解释能力，例如评估其内容是否完整且正确地包含诊断所需的信息。
我们提出的 MedFound-DX-PA 在‘医学病例理解’中得分为 4.02，显著超过未对齐的大语言模型的 3.77（P < 0.05）。
在‘临床推理’方面也观察到类似的趋势，这一部分用于评估大语言模型的推断性诊断是否与医生在临床实践中的诊断推理过程一致。
MedFound-DX-PA 表现出优越的性能，得分为 4.07，显著高于未对齐模型的 3.63（P < 0.01）。
在‘医学指南和共识’方面，要求医生评估大语言模型的输出是否符合既定的医学指南和共识。
MedFound-DX-PA 的李克特评分达到 3.83，而未对齐模型的评分为 3.62（P = 0.18）。
这些结果表明，我们的模型能够捕捉相关的医学证据并整合诊断推理，可能为临床决策提供更好的支持。

Para_03

我们还试图评估大语言模型在支持临床决策方面的有效性。
对于‘鉴别诊断的相关性’，医生评估了模型在区分可能导致患者症状的多种可能病症方面的能力。
我们的模型得分为3.93，超过了未对齐模型的3.62（P < 0.05）。
‘诊断的可接受性’用于评价诊断是否在临床上可接受或可靠。
在这一类别中，我们的模型得分4.21，显著优于未对齐模型的3.72（P < 0.001）。
这些结果展示了我们诊断通才模型潜在的临床可行性。

Para_04

在关键临床场景中，大型语言模型（LLMs）应避免生成不准确或误导性的信息（‘不忠实内容’），或者表现出与性别、文化和种族相关的不同程度的刻板印象（‘偏见和不公平’）。
此外，至关重要的是，LLM生成的内容不应包含任何错误或有害的证据，这可能会导致误诊或误导医生关于可能发生的医疗事故（‘潜在危害’）。
我们通过评估‘不忠实内容’、‘偏见和不公平’以及‘潜在危害’来考察模型的风险控制能力。
我们的模型在这三个指标上表现优异，分别得分为 4.11、4.14 和 4.03，显著超越未对齐模型的 3.66（P < 0.01）、3.82（P < 0.05）和 3.66（P < 0.01）。
结果表明，基于 LLM 的系统可以通过与人类价值观对齐进行优化，从而提高其可信度和临床适用性。

Impact of training components on the performance of LLMs

训练组件对大型语言模型性能的影响

Para_01

为了探讨我们提出的方案中关键组成部分对大型语言模型（LLM）诊断性能的影响，我们使用 MedDX-Bench 和最新的领先 LLMs（包括 Clinical Camel-70B、Llama-3-70B 和 MEDITRON-70B）进行了实验。
我们首先通过调整 MED-Prompt 来研究 LLMs 的固有诊断能力，这使得 LLMs 熟悉医疗任务，并能够在没有任何额外训练的情况下适应诊断任务。
结果显示，MedFound（不带 SC）表现出优异的性能，在 MedDX-Test、MedDX-OOD 和 MedDX-Rare 上分别比其他 LLMs 的平均性能提高了 14.4%、11.9% 和 11.1%（图 6a）。
例如，在 MedDX-Test 上，MedFound 达到了 37.2% 的准确率（95% CI：36.3%，38.1%），优于第二好的 LLM（Clinical Camel-70B，准确率为 30.8%，95% CI：29.9%，31.6%）。
在其他评估指标（如宏观准确率）中也观察到了类似的结果，详细数据见补充表 6。
这表明 MedFound 是一个更有效的预训练模型用于诊断任务，可能是因为其在 MedCorpus 上的全面预训练，使其能够编码广泛的医学知识和实际临床案例。

Fig. 6: Performance analysis of LLM training components for various diagnostic tasks.

- 图片说明

◉ 通过 MED-Prompt 在 MedDX-Test（常见病的同分布测试）（左侧）（n = 11,662）、MedDX-OOD（常见病的外分布测试）（中间）（n = 23,917）和 MedDX-Rare（罕见病的外分布测试）（右侧）（n = 20,257）上对不同预训练大语言模型在诊断任务中的准确性进行比较。◉ 误差条表示 95% 的置信区间。◉ 链式微调（COT fine-tuning）对各种大语言模型在 MedDX-Test（常见病的同分布测试）（左侧）、MedDX-OOD（常见病的外分布测试）（中间）和 MedDX-Rare（罕见病的外分布测试）（右侧）上的诊断任务准确性的影响分析。◉ 短水平线显示了一组模型的平均性能，所显示的百分比增长是通过 COT 微调获得的改进。

Para_02

除了评估预训练LLM固有的诊断能力外，我们还进一步研究了通过在特定领域数据上进行额外训练的链式思维微调对提高LLM诊断准确性的影响。
如图6b和补充表7所示，所有模型在微调后在MedDX-Bench任务上的表现均有所提升，MedDX-Test、MedDX-OOD和MedDX-Rare的平均微观准确率分别提高了14.9%、15.9%和12.7%。
在链式思维微调之后，我们采用了SC解码技术，通过减少输出的变异性并使其与特定领域的需求对齐，进一步提升了模型的推理性能。
如扩展数据图7和补充表3所示，所有LLM通过采用SC均表现出改进，MedDX-Test、MedDX-OOD和MedDX-Rare的微观准确率分别提高了12.1%、11.1%和7.6%。
总之，我们提出的预训练-微调方法显著提高了LLM在医疗任务上的性能，特别是在罕见疾病等具有挑战性的案例中。

Discussion

Para_01

在这项研究中，我们开发了 MedFound-DX-PA，这是一种大规模的通用诊断医疗助手，旨在各种医疗场景中接近临床医生的专业水平。
在 MedDX-Bench 上评估时，MedFound-DX-PA 在各个专科和病症上表现出卓越的诊断性能，包括常见病的分布内（ID）和分布外（OOD）设置，以及罕见病的诊断能力。
此外，我们进行了 MedFound-DX-PA 与专科医生的对比研究和一项人工智能辅助研究，结果表明其有可能提升初级或中级医生的诊断能力。
此外，对大型语言模型的人类评估研究显示，我们的 MedFound-DX-PA 有潜力作为通才整合到临床工作流程中。

Para_02

疾病诊断对日常临床任务至关重要，但容易出错，可能导致不良后果或治疗被延误或推迟。
以前的AI辅助诊断工具包括基于规则的临床决策支持系统（CDSSs）、在电子健康记录（EHR）结构化特征上进行的机器学习以及预训练语言模型（PLMs）。
然而，由于其特定的训练数据和模型规模，这些工具的应用受到限制，需要开发针对特定专业的模型，而这效率低下。

Para_03

最近的研究进展表明，大型语言模型（LLMs）具有在几乎没有或无需特定微调的情况下有效解释和生成文本的潜力，从而促进了诸如交互式决策支持和患者聊天机器人等多功能应用的发展。
然而，在临床环境中应用 LLMs 存在相当大的挑战。
现有的 LLMs 通常无法涵盖广泛的医学知识和场景。
此外，生成型语言模型的输出可能包含事实错误、逻辑不一致以及连贯性问题。
例如，ChatGPT 被发现缺乏深度和洞察力，生成的答案过于泛化且缺乏医学专业知识。
为弥补这一差距，我们推出了 MedFound，据我们所知，这是最大的开源医学 LLM，拥有 1760 亿个参数，并在多样化的医学语料库上进行了预训练。
其次，我们通过基于自引导的 COT 微调对 MedFound 进行了微调，以增强医学 LLM 的推理能力。
自引导方法利用提示词指导 LLM 自动生成大规模推理，仅需数百个标注数据，从而降低了专家标注的成本。
随后，我们引入了一个统一的 PA 框架，将 MedFound-DX 与 ICD-10 诊断偏好及临床医生评估的有用性偏好对齐，确保在关键医疗任务中的可靠性和安全性。

Para_04

尽管之前的研究强调了基于分类的决策支持工具在特定专科中的表现，我们希望在真实的临床场景中将这些工具与基于大型语言模型（LLM）的诊断通才进行比较。
我们纳入了三种具有代表性的分类模型：一种使用分层分类的传统机器学习方法（分层随机森林 (HRF)）；一种为医学领域定制的预训练语言模型，采用掩码语言建模策略（Med-BERT）；以及我们 MedFound 的一个变体作为分类器的预训练主干（MedFound-CLS），详见方法部分。
结果显示，MedFound-DX-PA 在 MedDX-Test 数据集上比第二好的模型 MedFound-CLS 高出 17.8%，在 MedDX-OOD 数据集上高出 35.7%，这突显了生成模型在诊断任务中，特别是在 OOD 场景下相较于分类方法的优势。
此外，虽然现有的专业决策支持工具在特定专科中表现出一定的有效性，但它们仅限于识别预先定义的粗粒度疾病类别，或者在零样本场景中常常难以诊断从未明确训练过的疾病。
相比之下，医学领域的大型语言模型在少量样本和零样本设置中为罕见疾病的诊断提供了有前景的解决方案。
我们的模型通过类似人类专家的方式对新输入样本进行推理，有效处理罕见病症（图 3 和图 5）。
这种基于基础模型的零样本方法可能为以前难以解决的更广泛的医疗应用开辟可能性。
我们诊断通才模型的另一个优势是能够生成诊断推理，使模型的输出透明化，并增强医生对人工智能驱动诊断工具的信任。

Para_05

此外，我们在实际临床场景中对基于大语言模型的诊断系统进行了全面的临床验证。
在研究中，我们利用跨多个专科的真实电子健康记录数据建立了一个基准，用于诊断从常见到罕见的各种疾病。
与其它大语言模型相比，MedFound-DX-PA 在不同分布上表现出更优的性能，突显了该模型作为通才模型的准确性和稳健性。
为了更全面地评估基于大语言模型生成的内容，我们开发了一个临床医生评价框架，涵盖广泛的方面。
鉴于确保安全性对于实际临床场景至关重要，我们的人类评价框架评估了多种安全考虑因素，例如不实内容、偏见、不公平性和潜在危害的可能性。
我们还进行了一项隐私风险评估，结果显示我们的模型具有较低的信息泄露风险。
如图 4a 和 b 所示，结果表明我们的模型显著提高了医生的表现，强调了大语言模型在增强临床工作流程中医生诊断能力方面的潜在作用。
此外，我们观察到一些医生即使在人工智能辅助下也无法超越原始的 AI 性能。
这种现象在以前的研究中也有观察到（例如，乳腺摄影癌症检测和胸部 X 光解读）。
研究表明，人机协作面临与人类对 AI 的心理模型相关的挑战，这可能取决于他们对 AI 的熟悉程度或对建议决策的依赖程度。
这也凸显了进一步研究人工智能辅助工具对人类认知和表现影响的必要性。

Para_06

基于LLM的诊断通才有可能在临床工作流程的各个阶段协助医生，包括信息收集、数据总结与解释、诊断推理以及制定最终诊断。
首先，我们的MedFound-DX-PA能够生成涵盖各专科常见或罕见疾病的诊断推理。
这使其在需要广泛疾病医学知识的临床场景中特别有用，例如预诊断分诊和优先级排序，或者作为咨询‘副驾’。
例如，在预诊断评估期间，MedFound-DX-PA可以综合患者症状，推荐进一步的诊断测试或将患者引导至适当的专科。
对于日常临床工作中遇到多种疾病的全科医生来说，他们可以根据MedFound-DX-PA的提示发起转诊，以获取更专业的专家意见，如心脏病学或神经病学方面的意见。
对于复杂和多系统的疾病，MedFound-DX-PA可以提供多学科咨询支持，相比任务特定工具，促进更加整体化的患者护理方法。
此外，诊断通才系统可以通过自动化临床评估之间的集成减轻医生的工作负担，从而在资源有限的环境中促进远程医疗的发展。

Para_07

此外，我们的诊断通才模型还可以在最少的提示下高效适应专科场景或特定疾病，相比现有的专科模型，性能和可解释性更优。
我们预计 MedFound-DX-PA 可以通过为经验较少的医生提供专科专家知识来促进人工智能辅助咨询，提升鉴别诊断能力或帮助完善最终诊断。
例如，该系统可以解读实验室或影像学结果，识别异常，并从专科医生的诊断评估中总结关键证据，如图5所示。
在后续的鉴别诊断阶段，MedFound-DX-PA 将通过考虑所有可用证据，提供诊断依据并为医生提出鉴别诊断，从而提高诊断质量。
参与我们研究的医生通过将这一人工智能系统融入临床实践，也展示了更高的诊断准确性。

Para_08

尽管我们的模型已经展示了令人印象深刻的诊断性能，但仍存在几个挑战。
首先，当前我们的医疗大语言模型主要集中在语言交互上，其能力可以通过与视觉-语言模型（VLMs）结合医疗多模态数据来扩展。
视觉-语言模型在病理学、放射学和超声心动图等领域显示出巨大潜力。
这些进步由大语言模型驱动，它们提供了广泛的专业知识和推理能力，使视觉-语言模型能够基于自然语言指令进行零样本的图像到文本生成，从而解锁诸如视觉知识推理和视觉对话等新兴能力。
未来，集成视觉-语言模型可以使 MedFound-DX-PA 采用更全面、多模态的诊断和患者护理方法，为人工智能辅助医疗开辟新的可能性。
此外，为了增强人机协作并将人工智能整合到常规临床工作流程中，未来的研究将集中于优化大语言模型，例如大语言模型代理，以更好地适应个别医生的需求，从而提高诊断支持的个性化程度。
模型辅助医生的评估互动以及医生的反馈也可以改进模型，这种方法被称为人在回路，使大语言模型系统能够以更符合临床环境实际需求的方式实现持续改进。
这些未来方向对于增强人工智能在临床工作流程中的实际整合以及最大化其对医疗实践或初级诊疗培训的潜在益处至关重要。

Methods

Datasets

数据集

Para_01

在这项研究中，我们整理了三个数据集来开发和评估 MedFound-DX-PA，分别用于预训练、微调和评估（补充表 1）。
对于预训练，我们创建了 MedCorpus，这是一个大规模的自由文本集合，来自四个来源：PMC-CR、MIMIC-III-Note、MedDX-Note 和 MedText。
对于微调，我们使用了 MedDX-FT 数据集，该数据集包含带有诊断、诊断推理演示和有用性注释的电子健康记录（EHRs）。
其中，MedDX-Note 和 MedDX-FT 包含来自中国疾病诊断研究联盟（CC-DXI）的电子健康记录。
该联盟招募了中国北京、四川省和广东省的多家医院：北京大学第三医院、北京大学第一医院、四川大学华西医院以及深圳大学附属华南医院。
本研究在机构审查委员会（IRB）批准的豁免书面知情同意的情况下进行。
所有地点均获得了 IRB 和伦理委员会的批准。
电子健康记录数据已去标识化，以删除任何与患者相关的信息。

Pre-training datasets to develop MedFound

用于开发MedFound的预训练数据集

Para_01

我们整理了MedCorpus，这是一个包含多样生物医学和临床文本的大型语料库，用于MedFound的预训练。
MedCorpus整合了总计63亿个词元，这些数据来源于四个数据集：MedText、PMC-CR、MIMIC-III-Note和MedDX-Note。

Para_02

MedText 由多种医学教科书组成，包含1,752本多语言教科书，涵盖了基础医学知识、术语、概念和实践指南。
PMC-CR 包含来自 PMC50 的完整病例报告，详细记录了患者的症状、体征、诊断、治疗或随访情况，特别关注疾病中的罕见或新出现的情况，并包含许多医学新理念。
PMC 被公认为是最广泛、公开可访问的数字存储库之一，存档了生物医学和生命科学领域的大量研究文章。
MIMIC-III-Note 和 MedDX-Note 源自真实临床数据，覆盖了不同系统的各种疾病。
MIMIC-III-Note 来源于一个开放获取的大规模临床数据库 MIMIC-III，该数据库包含了来自重症监护病房中38,597名患者在49,785次住院期间的电子健康记录（EHRs）。
MIMIC-III-Note 数据集包含患者记录中的典型医学文本多样性选择，例如医疗笔记、处方药物、临床指令和放射学报告等。
MedDX-Note 是一个专有的大规模真实世界数据集，包含来自 CC-DXI 的870万份电子健康记录（EHRs）。
该广泛的数据集涵盖了多种疾病，平均年龄为40.96岁，标准差为21.30。
数据集中的每条记录都提供了医疗接触的全面描述，例如病史和检查报告。
我们对语料库进行了数据预处理，包括去除特殊标签和字符以及分词化（MedCorpus 的详细信息见补充信息部分）。

Fine-tuning and alignment datasets to develop MedFound-DX-PA

用于开发MedFound-DX-PA的微调和对齐数据集

Para_01

为了微调和对齐我们的诊断模型，我们整理了一个医疗记录数据集，并收集了两种类型的专家注释：诊断推理演示和有用性注释。
我们从CC-DXI构建了一个名为MedDX-FT的数据集，包含109,364个病例，涵盖八个专科领域的408种常见疾病：肺病学、胃肠病学、泌尿学、心脏病学、免疫学、精神病学、神经病学和内分泌学。
为了微调具有诊断推理能力的模型，我们手动整理了一个包含800个诊断推理演示的数据集，这些数据来源于MedDX-FT数据集中的医疗记录。
在每个病例中，医生会仔细阅读完整的病历，并提供逐步的诊断分析，结合关键因素如临床观察、可能的疾病范围和诊断结果。
注释界面如扩展数据图2a所示。
然后，我们采用自引导策略自动为每个电子健康记录生成高质量的诊断推理，最终生成了109,364个推理用于微调。

Para_02

为了评估模型的有用性，我们收集了关于有用性的标注数据。
医生被指派评估给定的诊断推理是否有助于做出准确的诊断。
有用性被定义为诊断推理在多大程度上引导标注者得出准确的诊断结果。
标注界面如扩展数据图 2b 所示。
总共从 MedDX-FT 数据集中选取了 1,800 条生成的响应进行标注。
总体而言，在 72.1% 的情况下，生成的诊断推理被认为是有帮助的。
这些数据被用于微调和对齐 MedFound-DX-PA 与人类偏好，目标是增强其生成的推理以符合专业偏好，并在诊断过程中提供有益的帮助。

Evaluation datasets of the diagnostic performance of LLMs

评估数据集中的LLMs诊断性能

Para_01

为了评估基于LLM的疾病诊断系统，我们开展了MedDX-Bench，这是一个综合基准测试，包含三个数据集，其中包含真实世界的电子健康记录（EHRs）：MedDX-Test和MedDX-OOD用于常见疾病的同分布（ID）和外分布（OOD）测试，而MedDX-Rare用于罕见疾病的外分布测试。

Para_02

具体来说，MedDX-Test 数据集与开发数据集 CC-DXI 来源于同一出处，并且与 MedDX-FT 数据集互斥，用于在同分布（ID）环境下评估诊断性能。
它包含 11,662 份医疗记录，涵盖了各个医学专科的广泛常见疾病。
MedDX-OOD 和 MedDX-Rare 数据集来自中国湖北省宜昌市中心人民医院，该地理区域与 CC-DXI 不同，用于评估外部数据分布（OOD）情况下的模型表现。
MedDX-OOD 和 MedDX-Rare 数据集之间没有重叠。
为了将我们的评估扩展到外部验证集，并测试模型在不同条件下的性能，我们引入了 MedDX-OOD 和 MedDX-Rare 数据集。
MedDX-OOD 数据集包含 23,917 份记录，涵盖常见疾病，作为外部数据分布验证集，用于评估模型在不同地理区域的泛化能力。
另一个数据集 MedDX-Rare 包含 20,257 份记录，覆盖 2,105 种呈现长尾分布的疾病，这些疾病在罕见病和细分类疾病条件下对模型提出了挑战。
本研究中使用的所有电子健康记录（EHRs）均来源于医院系统，患者群体来自不同的临床科室，能够真实反映现实世界中的诊断过程。

Model overview

模型概述

Para_01

在这里，我们提出了 MedFound，这是一个为医学应用量身定制的预训练大规模语言模型，以及进一步优化以增强诊断能力的 MedFound-DX-PA。
首先，我们基于 BLOOM 模型（1760 亿参数）整理了一个多样化的医学语料库进行持续预训练，从而得到了 MedFound。
此步骤旨在使大语言模型适应医学领域，以提升其在最终任务中的表现。
随后，我们使用包含诊断推理的数据集对 MedFound 进行微调，使其学习诊断推理，从而得到 MedFound-DX。
最后，我们通过 DPO19 对 MedFound-DX 进行优化，使其与诊断专业的领域知识、需求及人类专家的偏好保持一致，从而得到 MedFound-DX-PA。
对齐过程由国际疾病分类 (ICD) 的疾病分类层级结构指导，并通过一个有用性评分模型评估的人类专家偏好进行调整。

Pre-training for developing MedFound

为开发MedFound进行预训练

错误！！！ - 待补充

Fine-tuning for diagnostic reasoning

针对诊断推理的微调

错误！！！ - 待补充错误！！！ - 待补充

PA for developing MedFound-DX-PA

用于开发MedFound-DX-PA的性能指标

Para_01

为了使 MedFound-DX 与现实世界的诊断场景和人类专家的偏好相一致，我们提出了一种统一的偏好对齐（PA）框架。
该框架结合了两种类型的偏好，包括诊断层次偏好和有用性偏好，这些偏好在模型中共同优化，以符合诊断标准以及医疗专业人员在临床场景中的期望。
诊断层次偏好基于国际疾病分类（ICD）代码定义的疾病分类层次结构，旨在使模型生成的内容与疾病分类标准保持一致。
有用性偏好通过一个基于专家标注训练的有用性评分模型进行细化，目标是使模型生成的内容在诊断目的上更具信息量、实用性和可信度，同时尽量减少危害或误导性信息的风险。
偏好对齐过程包含两个步骤：偏好构建和偏好优化。
对于诊断层次偏好的构建，我们利用 ICD 的指导来解决仅基于诊断正确性设置偏好所导致的问题，这些问题可能导致信号稀疏，尤其是在涉及罕见疾病或难以诊断的情况时。
例如，ICD 中的 E11（2型糖尿病）是多个子代码的父代码，包括 E11.0（伴有高渗状态的2型糖尿病）、E11.1（伴有酮症酸中毒的2型糖尿病）和 E11.2（伴有肾并发症的2型糖尿病）。
ICD 的层次结构有助于根据模型输出与 ICD 代码的一致性构建更细致的偏好。

错误！！！ - 待补充

Baselines

基线

Para_01

我们针对开源的最先进大语言模型评估了我们的方法，包括 Clinical Camel-70B、Llama-3-70B、MEDITRON-70B、MMedLM 2-7B 和闭源的大语言模型 GPT-4o。
这些大语言模型都是仅解码器的生成式语言模型。
我们还针对分类基线评估了我们的方法，包括传统的机器学习方法（使用 HRF25,30）、基于 BERT 的预训练大语言模型（记为 Med-BERT9）以及 MedFound 的分类变体（MedFound-CLS）。
HRF 使用基于解剖学的分层分类系统结合分类器进行疾病诊断分析。
相比之下，Med-BERT 是专为临床领域设计的仅编码器的变压器模型，而 MedFound-CLS 作为我们 MedFound 的一个变体，充当分类器的预训练骨干网络。
为了公平比较，所有基线模型都使用与我们方法相同的训练数据集进行训练。
此外，我们基于 BLOOM-7B 开发了 MedFound-7B，这是一个规模较小、更适合本地部署的版本，从而也解决了安全问题。

Clinical study

临床研究

Study design and participants

研究设计与参与者

Para_01

除了在回顾性数据中进行性能评估外，我们还进一步验证了大型语言模型（LLMs）在真实世界医疗诊断场景中的适用性。
我们设计了全面的临床研究，包括比较人工智能系统与不同级别医生之间的准确性，评估模型在帮助初级和中级医生进行诊断方面的有效性，以及基于李克特量表实施对大型语言模型生成内容能力的人类专家评估框架。
我们招募了九名内分泌科医生和九名呼吸科医生，他们具有不同的临床实践经验，其中包括每专科各三名初级医生（1-5年临床实践经验）、三名中级医生（5-10年临床实践经验）和三名高级医生（超过10年临床实践经验）。
该研究已获得北京大学第三医院医学科学研究伦理委员会的批准（IRB00006761-M2023607）。

Comparison of diagnostic accuracy between AI and physicians

人工智能与医生诊断准确性的比较

Para_01

为了评估我们模型在疾病诊断中的性能，我们对我们的大语言模型系统和医生的诊断进行了性能对比。
在此，涉及了三组医生，分别是初级、中级和高级医生，分别来自肺科和内分泌科的专业领域。
为了进行对比，我们构建了一个独立的验证集，包含300个病例，其中内分泌科和肺科各150个病例。
每位医生根据病历中提供的信息进行诊断，这些信息包括人口统计学数据、主诉、现病史、既往病史、体格检查、实验室检查和影像学检查结果。
我们采用了由每个专科的三位资深医生组成的专家共识小组的诊断结果作为金标准。
然后，我们将其作为参考，评估人工智能生成诊断相对于医生各组的准确性。

Assisted diagnostic accuracy with the LLM in the workflow

在工作流中使用大型语言模型辅助诊断的准确性

Para_01

我们进行了一项研究，以考察人工智能系统在医生工作流程中辅助诊断性能的潜在作用。
在初步诊断之后，每组初级和中级医生被要求借助模型生成的输出（包括推理依据和最终诊断建议）提供诊断结果。
每位初级和中级医生收到了150个病例。
然后，医生们参考模型生成的内容制定了他们的最终诊断。
为了确保可重复性，重新测试的对比研究在至少两周后进行。
我们将初级和中级医生在人工智能辅助后的诊断准确性与我们的人工智能系统或资深医生的诊断准确性进行了比较，以调查将大型语言模型集成到工作流程中是否可以提升初级和中级医生的能力。

Human evaluation framework of the diagnostic capability of the LLM

大语言模型诊断能力的人类评估框架

Para_01

为了全面了解大型语言模型（LLM）在临床场景中的能力和潜在局限性，我们提出了一种名为CLEVER的评估框架。
该框架旨在评估LLM生成准确可靠诊断的能力，同时遵守医学标准，涵盖从医学案例理解、临床推理到诊断制定的各个方面。
CLEVER框架的开发受到之前工作的影响，并与来自英国和中国的专家医生进行了咨询。
该框架包括八个关键评估维度和细化的指标。
（1）医学案例理解。该指标的目标是评估LLM对医学案例的理解和解释能力，包括对临床记录和诊断所需关键信息的完整性和正确性的理解。
（2）医学指南和共识。该指标的目标是评估LLM遵循医学界已建立的指南和共识的程度。
（3）临床推理。该指标的目标是评估LLM的内容是否与医生在临床实践中使用的诊断推理过程一致。
（4）鉴别诊断的相关性。该指标的目标是评估LLM区分可能导致患者症状的多种可能疾病或病症的能力。
（5）诊断的可接受性。评估LLM生成的诊断的可行性。我们要求医生对其诊断是否适用于临床使用进行评分。
（6）不准确内容。评估LLM输出中存在或包含错误或误导性信息的程度。医生被要求判断LLM是否包含错误或虚构内容。
（7）偏见和不公平。评估LLM展示出与年龄、性别、文化和种族相关的不同程度刻板印象的存在或程度。
（8）危害的可能性。评估LLM生成的内容中是否存在或包含任何错误、不利、有害或虚构的证据，这些内容可能导致误诊或误导医生，从而引发严重的医疗事故或负面影响。

Para_02

共有六位资深医生参与了对模型生成的诊断及相关推理过程的评估，其中包括三位肺科领域的资深医生和三位资深内分泌科医生，每位医生均拥有超过十年的临床经验。
每位资深医生在其专业领域内评估了对齐后的大型语言模型与未对齐的大型语言模型的能力。
该过程总共包括180次评估。
每位资深医生根据五点李克特量表审查并评分了案例。
指标的详细描述见补充信息。

Implementation

实现

Para_01

我们应用了低秩适应（LoRA）和使用 DeepSpeed 框架的 ZeRO++ 来训练大语言模型（LLMs）。
LoRA 通过冻结预训练模型权重并在变压器架构的每一层中注入可训练的低秩分解矩阵，减少了可训练参数的数量（详见补充信息）。
我们发现，当 LoRA 微调适当配置时，对大规模 LLMs 更为有效（补充表 8）。
实验表明，通过参数高效训练并选择具有领域代表性的语料库，所使用的语料库标记大小足以构建高效的医疗 LLM（补充表 9 和扩展数据图 9）。
我们使用了 vLLM 库进行模型推理，因为它在内存和计算资源利用方面具有高效率。
在使用 LLMs 进行诊断生成的方法中，我们采用了两种提示技术：MED-Prompt 提示和 SC 提示。
MED-Prompt 是一种医学提示策略，结合少量样本提示技术，无需任务特定的微调即可从预训练的 LLMs 中生成预测。
SC 策略使用 20 个样本以平衡性能和成本（扩展数据图 10）。
实现的详细参数提供在补充信息中。

Statistical analysis

统计分析

Para_01

我们使用微观准确性和宏观准确性来评估诊断性能。
我们计算了性能的均值和标准误差。
为了计算置信区间，我们采用了一种非参数自助法程序，使用了1,000个样本。
我们还报告了更多指标，包括精确率、召回率、ROC-AUC和PR-AUC，并采用了宏观平均（未加权）和微观平均（样本加权）方法。
ROC-AUC分数是根据SC一致频率计算得出的。
在临床研究中，双侧P值小于0.05被认为具有统计学意义。
我们对MedFound-DX和MedFound-DX-PA进行双侧t检验，以展示在诊断性能的人类评价八个维度上是否存在显著差异。

Reporting summary

报告摘要

Para_01

有关研究设计的更多信息可在此文章链接的《自然组合报告摘要》中获取。

Data availability

Para_01

PMC-CR 和 MedText 的原始数据可从获取。
MIMIC-III-Note 数据集可在 / 找到，但由于其使用条款限制，需要申请访问权限。
MedDX-Note 和 MedDX-Bench 来源于真实世界的临床场景，并已获得机构审查委员会（IRB）对电子健康记录（EHR）数据收集的批准。
由于隐私法规，EHR 数据无法公开存储在公共存储库中。
通过联系对应作者（G.W.），根据既定的数据请求审批协议，可以向管理团队申请获取 MedDX-Note 和 MedDX-Bench 的去标识化数据。
通常情况下，所有针对 EHR 数据的访问请求将在一个月内得到回复。
为了重现我们的代码和模型，MedDX-Bench 中的一个代表性测试数据集（包含跨专科样本）已在 GitHub 上公开提供（.zip）。
数据仅可用于非商业用途。

Code availability

Para_01

深度学习模型使用 Python（3.10）和 PyTorch（2.1.2）开发和部署。
以下标准模型库被使用：numpy（1.26.4）、pandas（2.2.1）、transformers（4.36.1）、vllm（0.2.5）、scikit-learn（1.2.1）、matplotlib（3.7.1）和 scipy（1.11.3）。
我们基于 PyTorch（2.1.2）实现直接偏好优化（DPO）。
自定义代码特定于我们的开发环境，主要用于数据输入/输出以及在计算机和图形处理器之间的并行化。
这些代码可在 GitHub 上获取，用于科学研究和非商业用途，地址为。
预训练模型已公开发布（，）。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。原始发表：2025-03-20，如有侵权请联系 cloudcommunity@tencent 删除人工智能nat模型数据性能

发布者：admin，转转请注明出处：http://www.yc00.com/web/1748198187a4746307.html