揭示医疗AI的“能力错觉”：HealthQA-BR 基准测试揭示大模型知识盲区

当前，大模型(LLM)在医疗领域的应用日益广泛，然而现有评估体系的局限性可能导致对AI能力的误判，形成“能力错觉”。传统的评估方式，如美国医师执照考试(USMLE)，主要侧重于英语环境和医师知识，忽略了医疗保健的跨专业性和不同地域的差异。针对这一问题，HealthQA-BR基准测试应运而生，它以巴西葡萄牙语的医疗执照考试题为基础，全面评估了不同医疗专业的知识水平，从而揭示了AI偏见 和潜在的知识格差。该测试结果表明，即使是最先进的医疗AI模型，也存在显著的知识盲区，给AI安全性敲响了警钟。

现有评估体系的局限性与“能力错觉”

目前，评估医疗AI模型性能的主流方式是基于一些以英语为基础，并且主要面向医生的考试，例如USMLE。这些测试的成功率往往被用来证明AI在医疗领域的潜力。然而，这种评估方法存在严重的局限性，容易产生“能力错觉”。这种“能力错觉”主要体现在两个方面：一是地域/语言偏见，二是职业偏见。

地域/语言偏见是指现有测试主要关注英语国家的高收入医疗体系，而忽略了其他语言和医疗体系的特殊性。例如，一种在英语环境中表现出色的AI模型，在面对葡萄牙语的巴西医疗问题时，可能表现得差强人意。这类似于一个精通美国法律的律师，在面对中国法律时束手无策。

职业偏见是指现有测试主要评估医生的知识，而忽略了其他医疗专业人员的贡献。现代医疗是一个团队协作的过程，涉及医生、护士、药剂师、理疗师、社工等多个专业。仅仅评估医生知识，无法全面反映AI在整个医疗体系中的应用潜力。这就好比评估一支足球队的实力只考察前锋的进球能力，而忽略了中场组织和后卫防守的重要性。

HealthQA-BR：系统性评估与跨专业覆盖

为了弥补现有评估体系的不足，HealthQA-BR基准测试应运而生。它是首个大规模、系统性的跨专业医疗基准测试，旨在更全面地评估医疗AI的知识格差 和AI偏见。

HealthQA-BR包含5632道葡萄牙语选择题，题目来源于巴西的Revalida (外国医生资格认证考试) 和Enare (住院医师和多专业住院医师考试)。其中，Revalida考试以难度高著称，Enare考试则覆盖了医学、护理学、心理学、药学、社会工作等多个医疗专业。

HealthQA-BR的独特之处在于其跨专业性。它不仅评估了医生的知识，还评估了护士、药剂师、社工等其他医疗专业人员的知识。这有助于揭示AI在不同专业领域的知识盲区，从而更全面地评估其在整个医疗体系中的应用潜力。

例如，HealthQA-BR包含了大量关于巴西公共卫生系统(SUS)的题目，这些题目涵盖了社区卫生、疾病预防、健康促进等内容。通过评估AI在这些方面的表现，可以了解其是否能够胜任基层医疗服务，从而推动医疗资源的公平分配。

模型性能分层：GPT-4.1 拔得头筹，开源模型紧随其后

研究人员对20多个主流大模型进行了零样本(zero-shot)测试，评估它们在HealthQA-BR上的表现。结果显示，模型性能呈现明显的分层现象。

顶层模型: GPT-4.1以86.6%的准确率位居榜首，DeepSeek R1 (85.3%)是表现最佳的开源模型，与GPT-4.1不相上下。 GPT-4o (84.9%)和Gemini 2.0 Flash (82.3%)也轻松通过了测试及格线 (约60-65%)。
中层模型: LLaMA 3 70b (75.1%) 和Gemma 3 27b (72.3%)表现尚可，但与顶层模型相比仍有差距。
底层模型: 70亿参数的Doutor Bode (42.1%) 以及更小型的LLaMA 3.1 8b (35.4%) 和Gemma 3 1b (28.4%) 得分很低，仅略高于随机猜测(约21.9%)，表明它们缺乏对该领域的基本了解。

这些结果表明，尽管顶级模型在整体上表现出色，但仍存在改进空间。此外，小型模型在医疗知识方面存在显著不足，需要进一步的训练和优化。

GPT-4.1的“锯齿形”知识图谱：优势与短板并存

尽管GPT-4.1在HealthQA-BR上表现出色，但研究人员发现，即使是它也存在显著的知识盲区。 GPT-4.1在不同医疗专业和学科上的表现差异很大，呈现出“锯齿形”的知识图谱。

优势学科: 在语音学(100%)、眼科学(98.7%)和病理学(97.6%)等领域，GPT-4.1几乎达到了完美的水平。
劣势学科: 在神经外科(60.0%)和骨科及创伤学(68.4%)等领域，GPT-4.1的表现仅勉强及格。此外，在儿科(79.4%)和集体医学(80.8%)等初级卫生保健的关键领域，GPT-4.1的得分也远低于优势学科。
优势专业: GPT-4.1在作业治疗(94.9%)、心理学(93.3%)和护理学(92.3%)等专业表现出色。
劣势专业: GPT-4.1在社会工作(68.4%)方面表现最差，揭示了最大的知识格差。此外，在兽医学(74.3%)和药学(75.7%)等领域的得分也相对较低。

这种“锯齿形”的知识图谱表明，即使是最先进的医疗AI模型，也存在AI偏见，并且在某些特定领域存在严重的知识盲区。这提示我们，在评估医疗AI的AI安全性时，不能只看总体准确率，更要关注其在不同专业和学科上的表现。

知识盲区：普遍存在，并非个例

研究人员发现，GPT-4.1的“锯齿形”知识图谱并非个例，而是当前一代大模型普遍存在的问题。 DeepSeek R1和GPT-4o等其他顶尖模型也表现出类似的知识盲区。这表明，当前医疗AI的发展面临着系统性的挑战，需要在数据、算法和评估方法等方面进行全面改进。

例如，研究人员发现，许多模型在社会工作领域的表现都不佳。这可能是因为现有的训练数据中，社会工作相关的内容较少，或者模型在学习社会工作知识时遇到了困难。为了解决这个问题，需要增加社会工作相关的数据，并改进模型的学习算法，使其能够更好地理解和应用社会工作知识。

训练数据偏见：根源与影响

HealthQA-BR测试结果也突显了训练数据偏见的问题。模型在公共卫生和社区相关领域（如社会工作和集体医学）的较差表现表明，当前的LLM训练数据可能过多地集中于高收入国家的专科医疗，而未能充分代表初级保健和预防性医疗的现实。

这种数据偏见可能导致AI模型在实际应用中出现偏差，例如，无法为低收入社区提供有效的医疗建议，或者无法识别常见但容易被忽视的健康问题。为了解决这个问题，需要扩大训练数据的来源，使其能够更好地反映不同地区和不同人群的医疗需求。

结论与启示：转向细粒度评估

HealthQA-BR基准测试的意义在于，它揭示了医疗AI的“能力错觉”，并提出了更有效的评估方法。该测试表明，在评估医疗AI的AI安全性时，不能只看总体准确率，更要关注其在不同专业和学科上的表现。细粒度的专业领域验证是评估临床AI安全性和可靠性的必要条件。

此外，HealthQA-BR测试还强调了训练数据偏见的问题。为了解决这个问题，需要扩大训练数据的来源，使其能够更好地反映不同地区和不同人群的医疗需求。

更重要的是，医疗AI的评估范式需要转变：从“模型有多准确？”这一简单问题转向更复杂、更负责任的提问：“模型在哪些方面准确？在哪些方面失败？它有哪些知识偏见？它对整个医疗团队来说安全吗？”

行动呼吁：弥合知识差距，实现负责任的AI部署

HealthQA-BR研究不仅提出了批评，还为AI开发提供了具体的路线图。它精确地指出了模型薄弱的环节（例如神经外科和社会工作），从而为开发人员提供了明确的改进方向，例如通过专业微调或检索增强生成（RAG）来弥补这些弱点。

在社会工作准确率仅为 68% 的情况下部署准确率为 87% 的“医疗 AI”是不负责任的，并且可能会损害患者并损害医疗专业人员的信任。真正安全和公平的AI部署取决于不断努力识别和解决这些知识差距。

总之，HealthQA-BR测试为医疗AI的未来发展指明了方向。通过细粒度的评估、解决数据偏见、以及持续的改进，我们可以弥合医疗AI的知识格差，实现负责任的AI部署，从而更好地服务于人类健康。

揭示医疗AI的“能力错觉”：HealthQA-BR 基准测试揭示大模型知识盲区