ChatGPT 在医疗、心理、法律等领域的专业评估：大模型能力的深度解析

人工智能的飞速发展，特别是 OpenAI 的 ChatGPT 系列大模型，例如 GPT-4o、GPT-4、o3 和 o3-mini，正引领着一场深刻的变革。尽管人们普遍关注其编写代码或生成文本的能力，但其潜力远不止于软件开发。本文将深入探讨 ChatGPT 在医疗、心理、法律、会计等多个领域的专业和学术评估中的表现，剖析这些 大模型 在各个领域的应用潜力与局限性，并展望 大模型 的未来发展趋势。

医疗健康领域的突破：USMLE 与 NMLE 的启示

在医疗健康领域，最引人瞩目的莫过于 ChatGPT 在医学执照考试中的优异表现。美国医学执照考试（USMLE）是美国行医的必备考试，分为三个步骤，考察基础知识、临床技能与诊断、以及实际决策能力。GPT-4o 在所有步骤中都取得了 85.7% 至 92.5% 的准确率，远超及格线，并超越了早期的模型。GPT-4 也通过了所有部分，但略逊于 GPT-4o。相比之下，GPT-3.5 的得分在 55% 到 60% 之间，刚好在及格线上下。这一结果表明，GPT-4o 能够处理复杂的、多层次的医学问题，其水平与有执照的医生相当。

同样，在中国的国家医学执照考试（NMLE）中，ChatGPT 也展现了强大的实力。NMLE 评估诊断推理、伦理判断和临床科学。GPT-4o 在 2020 年和 2021 年分别取得了 84.2% 和 88.2% 的成绩，远高于 60% 的及格线。GPT-4 也超过了 60% 的及格线，但得分略低于 GPT-4o。GPT-3.5 的表现不佳，约为 50%，未能达到医疗标准。这种强大的多语言和国际表现展示了 GPT-4o 在不同医疗系统中的普适性。

这些医学执照考试的成功，不仅仅是 ChatGPT 在知识储备上的体现，更重要的是它在临床推理和决策方面的能力。这意味着 大模型 在辅助诊断、病例分析、药物研发等领域具有巨大的应用潜力。未来的医生或许可以借助 ChatGPT 这样的工具，提高诊断效率，减少误诊率，从而更好地服务患者。

临床专业化与诊断：真实场景的应用

ChatGPT 不仅在医学执照考试中表现出色，在临床专业化和真实医疗场景中的应用也令人印象深刻。多项研究评估了 ChatGPT 在专业和现实医疗场景中的表现：GPT-4o 在季节性临床考试中表现出 96% 到 100% 的准确率。在急诊医学中，它是唯一通过笔试的模型（通过阈值：60%）。在放射肿瘤学中，GPT-4 的得分为 74.6%，而 GPT-3.5 的得分为 63.7%。在眼科中，GPT-4 在诊断准确性方面与初级医生相当或优于初级医生。

OpenAI 还发布了 HealthBench，这是一个模拟真实医患对话的基准。GPT-4o 最初的得分约为 0.32，而基于 o3 的更精细的代理达到了约 0.60，性能几乎翻了一番。这突出了智能体模型在医学中 AI 的交互式、现实应用中的前景。

这些结果证实了 大模型 在复杂临床推理和决策方面的能力。然而，我们也需要清醒地认识到，ChatGPT 仅仅是一个辅助工具，不能完全取代医生的判断。医生需要结合自身的临床经验和专业知识，对 ChatGPT 的建议进行评估和判断，才能做出最合适的决策。

心理学与社会推理：情感理解的新维度

心理学领域，ChatGPT 的表现也引人关注。心理学考试旨在衡量推理、情感识别和类人理解能力。社会智力量表是常用于评估同理心、情感理解和社会预测技能的测试。GPT-4 的得分为 59/64，优于心理学博士生的平均水平。在学术环境中，心理学教师发现，基于 GPT 的答案优于 80% 的真实学生在书面考试中的表现。值得注意的是，这些提交的内容很少被标记为 AI 使用，这表明这些回答可以多么令人信服地像人类。

这表明 AI 在治疗支持、社会培训和行为建模方面具有很高的上限。ChatGPT 在情感理解方面的能力，为心理咨询、心理治疗等领域带来了新的可能性。例如，ChatGPT 可以作为心理咨询师的助手，帮助他们分析患者的语言和行为，识别潜在的情感问题。此外，ChatGPT 还可以用于开发虚拟心理治疗师，为那些无法获得传统心理治疗服务的人群提供帮助。

法律、标准化考试与其他领域：多才多艺的AI助手

除了医疗和心理学，ChatGPT 在法律、标准化考试等其他领域也展现了出色的能力。在马里兰大学，法学教授评估了 GPT-4o 和 o3 模型在真实期末考试中的表现：GPT-4o/o3 在宪法和合同法等多个科目中取得了 A+ 到 B 的成绩。这些模型能够生成基于事实的、结构化的法律论证，符合二、三年级法律系学生对结果的预期。

OpenAI 已经对各种通用教育和研究生级别的考试进行了模型基准测试：

SAT：第 94 个百分位（GPT-4）
LSAT：第 88 个百分位
律师资格考试：第 90 个百分位
CPA（注册会计师）：GPT-4 的得分为 85.1%，远高于及格水平

这不仅证明了事实知识，还证明了在约束条件下应用推理的能力，这是人类认知的一个标志。

这些成绩表明，ChatGPT 具备了进行法律分析、合同审查、案件检索等工作的能力。未来的律师可以借助 ChatGPT 提高工作效率，减少重复性劳动，从而更专注于案件的策略制定和人际沟通。

人类的最后一次考试：通往通用人工智能的漫长道路

或许是最困难的测试：人类的最后一次考试。这个包含 2500 个问题的大型评估旨在通过基本的启发式方法无法解决。它测试多模式推理、情境意识和抽象。GPT-4o：~3.3%；o3-mini：13.4%；o3：20.3%；深度研究代理（o3 变体）：26.6%。虽然这些数字可能看起来很低，但它们明显优于随机猜测，并表明在更高级别的一般智能方面取得了早期进展。

尽管 ChatGPT 在许多领域都取得了显著的进展，但在面对需要深度情境建模和长期规划的多层次抽象任务时，仍然存在很大的差距。这表明，ChatGPT 距离真正的通用人工智能（AGI）还有很长的路要走。要实现 AGI，我们需要解决以下几个关键问题：

情境理解： 如何让 大模型 更好地理解复杂的现实世界情境，并根据情境做出合理的判断？
长期规划： 如何让 大模型 具备长期规划能力，能够制定并执行复杂的任务？
常识推理： 如何让 大模型 掌握人类的常识，能够进行更自然的推理？

伦理考量：AI 的双刃剑

随着 ChatGPT 等 大模型 的广泛应用，我们也需要关注其可能带来的伦理问题。例如，ChatGPT 可能会被用于传播虚假信息、进行网络欺诈、甚至操纵舆论。因此，我们需要建立完善的监管机制，规范 大模型 的使用，防止其被滥用。

此外，ChatGPT 的应用还可能导致就业岗位的流失。例如，ChatGPT 可以替代一部分律师、会计师等专业人士的工作，从而导致这些行业的就业岗位减少。我们需要积极应对这一挑战，通过教育和培训，帮助人们适应新的就业环境。

结论：AI 的未来与人类的责任

总而言之，在医疗、心理学和法律等领域，GPT-4o 及其同类产品展示了在专业水平上理解和回应的能力：在医学方面，GPT-4o 可以通过执照考试，推理临床病例，并超越一些医生。在心理学方面，它像训练有素的人类一样理解情感和背景。在法律和一般知识方面，它可以在复杂的推理任务上与受过教育的人竞争。

然而，在需要更深层次的情境建模和长期规划的多层次抽象任务中，差距仍然很大。这些考试不仅仅是基准，而是压力测试。他们告诉我们 AI 的立场以及它仍然需要人类监督的地方。尽管如此，未来是明确的：像 GPT-4o 这样的 AI 不仅仅是合格的。在许多领域，它已经精通。

ChatGPT 等 大模型 的出现，是人工智能发展的一个重要里程碑。它不仅展示了人工智能的巨大潜力，也提出了新的挑战。我们需要以积极开放的态度，迎接人工智能时代的到来。同时，我们也需要保持警惕，防范人工智能可能带来的风险。只有这样，我们才能充分利用人工智能的优势，创造一个更美好的未来。

ChatGPT 在医疗、心理、法律等领域的专业评估：大模型能力的深度解析

ChatGPT 在医疗、心理、法律等领域的专业评估：大模型能力的深度解析

医疗健康领域的突破：USMLE 与 NMLE 的启示

临床专业化与诊断：真实场景的应用

心理学与社会推理：情感理解的新维度

法律、标准化考试与其他领域：多才多艺的AI助手

人类的最后一次考试：通往通用人工智能的漫长道路

伦理考量：AI 的双刃剑

结论：AI 的未来与人类的责任

By llmtrend

LLMEval-Med：大模型时代医疗AI的进阶之路——构建更现实、更可靠的临床基准

苹果研究揭示大型推理模型“思考错觉”：复杂性是能力瓶颈？

大模型推理的幻觉：当“思考”的AI停止思考

发表回复取消回复

从预训练到策略优化：大型语言模型 (LLM) 如何实现与人类意图对齐

Spring AI赋能：利用工具调用（Tool Calling）构建更强大的大语言模型应用

2025年值得关注的五大 Agentic AI框架：迎接自主智能新时代

本地部署 DeepSeek-R1：使用 Ollama 轻松驾驭大模型

You Missed

从预训练到策略优化：大型语言模型 (LLM) 如何实现与人类意图对齐

从预训练到策略优化：大型语言模型 (LLM) 如何实现与人类意图对齐

Spring AI赋能：利用工具调用（Tool Calling）构建更强大的大语言模型应用

Spring AI赋能：利用工具调用（Tool Calling）构建更强大的大语言模型应用

AI 内容捷径：为什么过度依赖 AI 写作会损害你的 WordPress 网站 SEO？

2025年值得关注的五大 Agentic AI框架：迎接自主智能新时代

2025年值得关注的五大 Agentic AI框架：迎接自主智能新时代

ChatGPT 在医疗、心理、法律等领域的专业评估：大模型能力的深度解析

医疗健康领域的突破：USMLE 与 NMLE 的启示

临床专业化与诊断：真实场景的应用

心理学与社会推理：情感理解的新维度

法律、标准化考试与其他领域：多才多艺的AI助手

人类的最后一次考试：通往通用人工智能的漫长道路

伦理考量：AI 的双刃剑

结论：AI 的未来与人类的责任

By llmtrend

Related Post

LLMEval-Med：大模型时代医疗AI的进阶之路——构建更现实、更可靠的临床基准

苹果研究揭示大型推理模型“思考错觉”：复杂性是能力瓶颈？

大模型推理的幻觉：当“思考”的AI停止思考

发表回复 取消回复

You Missed

从预训练到策略优化：大型语言模型 (LLM) 如何实现与人类意图对齐

Spring AI赋能：利用工具调用（Tool Calling）构建更强大的大语言模型应用

2025年值得关注的五大 Agentic AI框架：迎接自主智能新时代

发表回复取消回复