人工智能的飞速发展,特别是 OpenAI 的 ChatGPT 系列大模型,例如 GPT-4o、GPT-4、o3 和 o3-mini,正引领着一场深刻的变革。 尽管人们普遍关注其编写代码或生成文本的能力,但其潜力远不止于软件开发。本文将深入探讨 ChatGPT 在医疗、心理、法律、会计等多个领域的专业和学术评估中的表现,剖析这些 大模型 在各个领域的应用潜力与局限性,并展望 大模型 的未来发展趋势。

医疗健康领域的突破:USMLE 与 NMLE 的启示

在医疗健康领域,最引人瞩目的莫过于 ChatGPT 在医学执照考试中的优异表现。美国医学执照考试(USMLE)是美国行医的必备考试,分为三个步骤,考察基础知识、临床技能与诊断、以及实际决策能力。GPT-4o 在所有步骤中都取得了 85.7% 至 92.5% 的准确率,远超及格线,并超越了早期的模型。GPT-4 也通过了所有部分,但略逊于 GPT-4o。 相比之下,GPT-3.5 的得分在 55% 到 60% 之间,刚好在及格线上下。这一结果表明,GPT-4o 能够处理复杂的、多层次的医学问题,其水平与有执照的医生相当。

同样,在中国的国家医学执照考试(NMLE)中,ChatGPT 也展现了强大的实力。NMLE 评估诊断推理、伦理判断和临床科学。GPT-4o 在 2020 年和 2021 年分别取得了 84.2% 和 88.2% 的成绩,远高于 60% 的及格线。GPT-4 也超过了 60% 的及格线,但得分略低于 GPT-4o。GPT-3.5 的表现不佳,约为 50%,未能达到医疗标准。这种强大的多语言和国际表现展示了 GPT-4o 在不同医疗系统中的普适性。

这些医学执照考试的成功,不仅仅是 ChatGPT 在知识储备上的体现,更重要的是它在临床推理和决策方面的能力。这意味着 大模型 在辅助诊断、病例分析、药物研发等领域具有巨大的应用潜力。未来的医生或许可以借助 ChatGPT 这样的工具,提高诊断效率,减少误诊率,从而更好地服务患者。

临床专业化与诊断:真实场景的应用

ChatGPT 不仅在医学执照考试中表现出色,在临床专业化和真实医疗场景中的应用也令人印象深刻。多项研究评估了 ChatGPT 在专业和现实医疗场景中的表现:GPT-4o 在季节性临床考试中表现出 96% 到 100% 的准确率。在急诊医学中,它是唯一通过笔试的模型(通过阈值:60%)。在放射肿瘤学中,GPT-4 的得分为 74.6%,而 GPT-3.5 的得分为 63.7%。在眼科中,GPT-4 在诊断准确性方面与初级医生相当或优于初级医生。

OpenAI 还发布了 HealthBench,这是一个模拟真实医患对话的基准。GPT-4o 最初的得分约为 0.32,而基于 o3 的更精细的代理达到了约 0.60,性能几乎翻了一番。这突出了智能体模型在医学中 AI 的交互式、现实应用中的前景。

这些结果证实了 大模型 在复杂临床推理和决策方面的能力。然而,我们也需要清醒地认识到,ChatGPT 仅仅是一个辅助工具,不能完全取代医生的判断。医生需要结合自身的临床经验和专业知识,对 ChatGPT 的建议进行评估和判断,才能做出最合适的决策。

心理学与社会推理:情感理解的新维度

心理学领域,ChatGPT 的表现也引人关注。心理学考试旨在衡量推理、情感识别和类人理解能力。社会智力量表是常用于评估同理心、情感理解和社会预测技能的测试。GPT-4 的得分为 59/64,优于心理学博士生的平均水平。在学术环境中,心理学教师发现,基于 GPT 的答案优于 80% 的真实学生在书面考试中的表现。值得注意的是,这些提交的内容很少被标记为 AI 使用,这表明这些回答可以多么令人信服地像人类。

这表明 AI 在治疗支持、社会培训和行为建模方面具有很高的上限。ChatGPT 在情感理解方面的能力,为心理咨询、心理治疗等领域带来了新的可能性。例如,ChatGPT 可以作为心理咨询师的助手,帮助他们分析患者的语言和行为,识别潜在的情感问题。此外,ChatGPT 还可以用于开发虚拟心理治疗师,为那些无法获得传统心理治疗服务的人群提供帮助。

法律、标准化考试与其他领域:多才多艺的AI助手

除了医疗和心理学,ChatGPT 在法律、标准化考试等其他领域也展现了出色的能力。在马里兰大学,法学教授评估了 GPT-4o 和 o3 模型在真实期末考试中的表现:GPT-4o/o3 在宪法和合同法等多个科目中取得了 A+ 到 B 的成绩。这些模型能够生成基于事实的、结构化的法律论证,符合二、三年级法律系学生对结果的预期。

OpenAI 已经对各种通用教育和研究生级别的考试进行了模型基准测试:

  • SAT:第 94 个百分位(GPT-4)
  • LSAT:第 88 个百分位
  • 律师资格考试:第 90 个百分位
  • CPA(注册会计师):GPT-4 的得分为 85.1%,远高于及格水平

这不仅证明了事实知识,还证明了在约束条件下应用推理的能力,这是人类认知的一个标志。

这些成绩表明,ChatGPT 具备了进行法律分析、合同审查、案件检索等工作的能力。未来的律师可以借助 ChatGPT 提高工作效率,减少重复性劳动,从而更专注于案件的策略制定和人际沟通。

人类的最后一次考试:通往通用人工智能的漫长道路

或许是最困难的测试:人类的最后一次考试。这个包含 2500 个问题的大型评估旨在通过基本的启发式方法无法解决。它测试多模式推理、情境意识和抽象。GPT-4o:~3.3%;o3-mini:13.4%;o3:20.3%;深度研究代理(o3 变体):26.6%。虽然这些数字可能看起来很低,但它们明显优于随机猜测,并表明在更高级别的一般智能方面取得了早期进展。

尽管 ChatGPT 在许多领域都取得了显著的进展,但在面对需要深度情境建模和长期规划的多层次抽象任务时,仍然存在很大的差距。这表明,ChatGPT 距离真正的通用人工智能(AGI)还有很长的路要走。要实现 AGI,我们需要解决以下几个关键问题:

  • 情境理解: 如何让 大模型 更好地理解复杂的现实世界情境,并根据情境做出合理的判断?
  • 长期规划: 如何让 大模型 具备长期规划能力,能够制定并执行复杂的任务?
  • 常识推理: 如何让 大模型 掌握人类的常识,能够进行更自然的推理?

伦理考量:AI 的双刃剑

随着 ChatGPT大模型 的广泛应用,我们也需要关注其可能带来的伦理问题。例如,ChatGPT 可能会被用于传播虚假信息、进行网络欺诈、甚至操纵舆论。因此,我们需要建立完善的监管机制,规范 大模型 的使用,防止其被滥用。

此外,ChatGPT 的应用还可能导致就业岗位的流失。例如,ChatGPT 可以替代一部分律师、会计师等专业人士的工作,从而导致这些行业的就业岗位减少。我们需要积极应对这一挑战,通过教育和培训,帮助人们适应新的就业环境。

结论:AI 的未来与人类的责任

总而言之,在医疗、心理学和法律等领域,GPT-4o 及其同类产品展示了在专业水平上理解和回应的能力:在医学方面,GPT-4o 可以通过执照考试,推理临床病例,并超越一些医生。在心理学方面,它像训练有素的人类一样理解情感和背景。在法律和一般知识方面,它可以在复杂的推理任务上与受过教育的人竞争。

然而,在需要更深层次的情境建模和长期规划的多层次抽象任务中,差距仍然很大。这些考试不仅仅是基准,而是压力测试。他们告诉我们 AI 的立场以及它仍然需要人类监督的地方。尽管如此,未来是明确的:像 GPT-4o 这样的 AI 不仅仅是合格的。在许多领域,它已经精通。

ChatGPT大模型 的出现,是人工智能发展的一个重要里程碑。它不仅展示了人工智能的巨大潜力,也提出了新的挑战。我们需要以积极开放的态度,迎接人工智能时代的到来。同时,我们也需要保持警惕,防范人工智能可能带来的风险。只有这样,我们才能充分利用人工智能的优势,创造一个更美好的未来。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注