当前,大模型(LLM)在医疗领域的应用日益广泛,然而现有评估体系的局限性可能导致对AI能力的误判,形成“能力错觉”。 传统的评估方式,如美国医师执照考试(USMLE),主要侧重于英语环境和医师知识,忽略了医疗保健的跨专业性和不同地域的差异。 针对这一问题,HealthQA-BR基准测试应运而生,它以巴西葡萄牙语的医疗执照考试题为基础,全面评估了不同医疗专业的知识水平,从而揭示了AI偏见 和潜在的知识格差。该测试结果表明,即使是最先进的医疗AI模型,也存在显著的知识盲区,给AI安全性敲响了警钟。
现有评估体系的局限性与“能力错觉”
目前,评估医疗AI模型性能的主流方式是基于一些以英语为基础,并且主要面向医生的考试,例如USMLE。 这些测试的成功率往往被用来证明AI在医疗领域的潜力。 然而,这种评估方法存在严重的局限性,容易产生“能力错觉”。 这种“能力错觉”主要体现在两个方面:一是地域/语言偏见,二是职业偏见。
地域/语言偏见是指现有测试主要关注英语国家的高收入医疗体系,而忽略了其他语言和医疗体系的特殊性。 例如,一种在英语环境中表现出色的AI模型,在面对葡萄牙语的巴西医疗问题时,可能表现得差强人意。 这类似于一个精通美国法律的律师,在面对中国法律时束手无策。
职业偏见是指现有测试主要评估医生的知识,而忽略了其他医疗专业人员的贡献。 现代医疗是一个团队协作的过程,涉及医生、护士、药剂师、理疗师、社工等多个专业。 仅仅评估医生知识,无法全面反映AI在整个医疗体系中的应用潜力。 这就好比评估一支足球队的实力只考察前锋的进球能力,而忽略了中场组织和后卫防守的重要性。
HealthQA-BR:系统性评估与跨专业覆盖
为了弥补现有评估体系的不足,HealthQA-BR基准测试应运而生。 它是首个大规模、系统性的跨专业医疗基准测试,旨在更全面地评估医疗AI的知识格差 和AI偏见。
HealthQA-BR包含5632道葡萄牙语选择题,题目来源于巴西的Revalida (外国医生资格认证考试) 和Enare (住院医师和多专业住院医师考试)。 其中,Revalida考试以难度高著称,Enare考试则覆盖了医学、护理学、心理学、药学、社会工作等多个医疗专业。
HealthQA-BR的独特之处在于其跨专业性。 它不仅评估了医生的知识,还评估了护士、药剂师、社工等其他医疗专业人员的知识。 这有助于揭示AI在不同专业领域的知识盲区,从而更全面地评估其在整个医疗体系中的应用潜力。
例如,HealthQA-BR包含了大量关于巴西公共卫生系统(SUS)的题目,这些题目涵盖了社区卫生、疾病预防、健康促进等内容。 通过评估AI在这些方面的表现,可以了解其是否能够胜任基层医疗服务,从而推动医疗资源的公平分配。
模型性能分层:GPT-4.1 拔得头筹,开源模型紧随其后
研究人员对20多个主流大模型进行了零样本(zero-shot)测试,评估它们在HealthQA-BR上的表现。 结果显示,模型性能呈现明显的分层现象。
-
顶层模型: GPT-4.1以86.6%的准确率位居榜首,DeepSeek R1 (85.3%)是表现最佳的开源模型,与GPT-4.1不相上下。 GPT-4o (84.9%)和Gemini 2.0 Flash (82.3%)也轻松通过了测试及格线 (约60-65%)。
-
中层模型: LLaMA 3 70b (75.1%) 和Gemma 3 27b (72.3%)表现尚可,但与顶层模型相比仍有差距。
-
底层模型: 70亿参数的Doutor Bode (42.1%) 以及更小型的LLaMA 3.1 8b (35.4%) 和Gemma 3 1b (28.4%) 得分很低,仅略高于随机猜测(约21.9%),表明它们缺乏对该领域的基本了解。
这些结果表明,尽管顶级模型在整体上表现出色,但仍存在改进空间。 此外,小型模型在医疗知识方面存在显著不足,需要进一步的训练和优化。
GPT-4.1的“锯齿形”知识图谱:优势与短板并存
尽管GPT-4.1在HealthQA-BR上表现出色,但研究人员发现,即使是它也存在显著的知识盲区。 GPT-4.1在不同医疗专业和学科上的表现差异很大,呈现出“锯齿形”的知识图谱。
-
优势学科: 在语音学(100%)、眼科学(98.7%)和病理学(97.6%)等领域,GPT-4.1几乎达到了完美的水平。
-
劣势学科: 在神经外科(60.0%)和骨科及创伤学(68.4%)等领域,GPT-4.1的表现仅勉强及格。 此外,在儿科(79.4%)和集体医学(80.8%)等初级卫生保健的关键领域,GPT-4.1的得分也远低于优势学科。
-
优势专业: GPT-4.1在作业治疗(94.9%)、心理学(93.3%)和护理学(92.3%)等专业表现出色。
-
劣势专业: GPT-4.1在社会工作(68.4%)方面表现最差,揭示了最大的知识格差。 此外,在兽医学(74.3%)和药学(75.7%)等领域的得分也相对较低。
这种“锯齿形”的知识图谱表明,即使是最先进的医疗AI模型,也存在AI偏见,并且在某些特定领域存在严重的知识盲区。 这提示我们,在评估医疗AI的AI安全性时,不能只看总体准确率,更要关注其在不同专业和学科上的表现。
知识盲区:普遍存在,并非个例
研究人员发现,GPT-4.1的“锯齿形”知识图谱并非个例,而是当前一代大模型普遍存在的问题。 DeepSeek R1和GPT-4o等其他顶尖模型也表现出类似的知识盲区。 这表明,当前医疗AI的发展面临着系统性的挑战,需要在数据、算法和评估方法等方面进行全面改进。
例如,研究人员发现,许多模型在社会工作领域的表现都不佳。 这可能是因为现有的训练数据中,社会工作相关的内容较少,或者模型在学习社会工作知识时遇到了困难。 为了解决这个问题,需要增加社会工作相关的数据,并改进模型的学习算法,使其能够更好地理解和应用社会工作知识。
训练数据偏见:根源与影响
HealthQA-BR测试结果也突显了训练数据偏见的问题。 模型在公共卫生和社区相关领域(如社会工作和集体医学)的较差表现表明,当前的LLM训练数据可能过多地集中于高收入国家的专科医疗,而未能充分代表初级保健和预防性医疗的现实。
这种数据偏见可能导致AI模型在实际应用中出现偏差,例如,无法为低收入社区提供有效的医疗建议,或者无法识别常见但容易被忽视的健康问题。 为了解决这个问题,需要扩大训练数据的来源,使其能够更好地反映不同地区和不同人群的医疗需求。
结论与启示:转向细粒度评估
HealthQA-BR基准测试的意义在于,它揭示了医疗AI的“能力错觉”,并提出了更有效的评估方法。 该测试表明,在评估医疗AI的AI安全性时,不能只看总体准确率,更要关注其在不同专业和学科上的表现。 细粒度的专业领域验证是评估临床AI安全性和可靠性的必要条件。
此外,HealthQA-BR测试还强调了训练数据偏见的问题。 为了解决这个问题,需要扩大训练数据的来源,使其能够更好地反映不同地区和不同人群的医疗需求。
更重要的是,医疗AI的评估范式需要转变:从“模型有多准确?”这一简单问题转向更复杂、更负责任的提问:“模型在哪些方面准确?在哪些方面失败?它有哪些知识偏见?它对整个医疗团队来说安全吗?”
行动呼吁:弥合知识差距,实现负责任的AI部署
HealthQA-BR研究不仅提出了批评,还为AI开发提供了具体的路线图。它精确地指出了模型薄弱的环节(例如神经外科和社会工作),从而为开发人员提供了明确的改进方向,例如通过专业微调或检索增强生成(RAG)来弥补这些弱点。
在社会工作准确率仅为 68% 的情况下部署准确率为 87% 的“医疗 AI”是不负责任的,并且可能会损害患者并损害医疗专业人员的信任。 真正安全和公平的AI部署取决于不断努力识别和解决这些知识差距。
总之,HealthQA-BR测试为医疗AI的未来发展指明了方向。 通过细粒度的评估、解决数据偏见、以及持续的改进,我们可以弥合医疗AI的知识格差,实现负责任的AI部署,从而更好地服务于人类健康。