大模型智能体在数学推理领域的突破：UC Berkeley Spring 2025 进展解读

近年来，大模型（LLM）智能体在各个领域展现出惊人的潜力，尤其是在数学推理方面。UC Berkeley 在2024年秋季和2025年春季开设了一系列关于生成式AI智能体的课程，其中2025年春季的重点在于数学推理能力的提升。本次课程的重点在于探索如何利用大模型解决复杂的数学问题，并验证其推理的准确性。本文将深入探讨该课程中关于数学推理的关键讨论，并着重分析其在形式化数学、自形式化和强化学习等方面的最新研究进展，旨在帮助读者快速了解大模型智能体在数学推理领域的前沿动态。

数学推理：大模型智能体的下一片蓝海

“如果一个智能体能够完全自主地掌握一个环境，那么我们就拥有了一个能够自我发现和学习新知识的系统。” – Thomas Hubert, Google DeepMind

数学推理之所以被认为是大模型智能体极具潜力的发展方向，主要原因在于其可验证性和通用性。与需要主观判断的任务不同，数学推理的结果可以通过数学解法或代码单元测试进行客观评估（Week 9）。这种清晰的评估标准对于提高推理能力至关重要。此外，数学和代码可以作为复杂推理和规划的代理，这意味着在数学推理上的突破可以迁移到其他需要复杂思考的领域。

更为重要的是，通过结合强化学习（RL）和形式化证明助手能力（如LEAN），可以实现完美的验证（Week 8）。模型生成一个输出，然后通过Lean进行验证，验证结果作为强化学习的奖励信号，并提供反馈给模型。这种机制可以有效地避免大模型的幻觉现象。

无幻觉的模型对于让大模型发现数学中的新真理至关重要，就像强化学习在围棋或象棋领域所取得的突破一样。此外，这种模型还有潜力应用于需要精确推理的各个领域，例如金融分析、法律推理等。例如，在金融领域，利用无幻觉的大模型可以进行更准确的风险评估和投资决策，减少因模型错误导致的损失。

当前大模型智能体的局限性

尽管当前自然语言大模型在数学能力上的提升速度令人印象深刻，但我们仍需保持清醒的头脑。虽然这些模型在解决大学预科水平的数学问题，特别是那些有数值答案的问题时表现良好，但在处理高等数学或数学研究方面仍然存在不足，这些领域通常缺乏数值解。在这种背景下，对输出结果的评估也变得尤为困难。

例如，让大模型证明一个复杂的拓扑学定理，或者推导一个全新的积分公式，现有的模型往往难以胜任。这些任务不仅需要强大的计算能力，更需要深刻的数学理解和创造性思维。此外，对于这些问题的解答，往往没有标准答案，需要专家进行评估，这也增加了验证的难度。

形式化数学 vs. 非形式化数学：数据质量与数量的权衡

在大模型智能体进行数学推理的研究中，一个核心的讨论点是形式化数学与非形式化数学之间的差异。

非形式化数学：指的是用自然语言或在实践中应用的数学规则进行证明和推理，包括日常生活中的问题解决。它具有数据量大的优势，但缺点是难以验证。例如，网络上大量的数学博客文章、教学视频，都属于非形式化数学的范畴。
形式化数学：指的是以一种形式上可验证的语言或源代码显式编写的数学语句和证明（Week 8 & Week 9）。这种证明可以通过Lean、Isabelle和Coq等工具进行严格验证。形式化数学的数据量相对较少，但具有可验证的优势。例如，Mathlib就是一个大型的Lean形式化数学库。

Yang et al. (2024) 在他们的论文 “Formal Mathematical Reasoning: A New Frontier in AI” 中强调了形式化数学在人工智能领域的重要性。

训练在形式化数学数据上的模型可以应用于各个领域，并依赖于严格的验证工具的支持。然而，形式化数学数据也面临着数据量有限以及对更广泛的数学领域覆盖不足的限制。因此，该领域的核心讨论围绕着数据质量和数据可用性之间的内在权衡展开。目前的一个共识是，高质量的形式化数学数据能够显著提升大模型的推理能力，但获取这些数据需要耗费大量的人力物力。

自形式化：弥合数据鸿沟的关键

为了解决形式化数学数据稀缺的问题，自形式化应运而生。自形式化指的是从非形式化数学数据中扩充形式化数学数据。这种增强技术正在成为一个重要的研究子领域，并可能带来重大突破。

例如，可以将一篇用自然语言描述的数学证明，通过自形式化技术，转换成Lean或其他形式化证明助手可以理解的代码。这个过程涉及将自然语言的数学语句翻译成机器可理解的逻辑表达式，并验证其正确性。

此外，一些研究还利用非形式化数学数据和现有的在非形式化数据上训练的大模型来增强推理能力。Week 11强调，目前仍处于新兴阶段的自形式化是一个研究机会和未来的发展方向。Lu et al. (2024) 在他们的论文 “Process-Driven Autoformalization in Lean 4” 中，详细介绍了如何在Lean 4中使用过程驱动的方法进行自形式化。

自形式化的实现并非易事，它需要解决以下几个关键挑战：

自然语言理解：大模型需要准确理解非形式化数学文本的含义，这涉及到自然语言处理的多个方面，包括词义消歧、句法分析和语义理解。
知识表示：需要将非形式化数学知识转换成形式化的表示，例如逻辑公式或程序代码。
推理验证：需要验证转换后的形式化知识是否正确，这可以通过自动定理证明器或形式化证明助手来实现。

尽管面临诸多挑战，但自形式化仍然是弥合数据鸿沟、提升大模型在数学推理领域能力的关键技术。

最新研究案例：AlphaProof 与 Lean-STaR

在 UC Berkeley 的课程中，重点介绍了两个利用自形式化和强化学习提升数学推理能力的案例：AlphaProof 和 Lean-STaR。

1. AlphaProof

AlphaProof 是自形式化方面的一个成功案例，它采用了一个两步模型。

形式化器模型（Formalizer）：将非形式化问题翻译并扩充为形式化问题。
证明器模型（Prover）：在Mathlib上训练的监督模型，尝试通过Lean验证证明。

强化学习提供了反馈以提高性能。Google DeepMind (2024) 的研究表明，AlphaProof 在国际数学奥林匹克（IMO）2024中取得了显著的成果。AlphaProof 完全解决了P1、P2和P6问题，而AlphaGeometry（专门使用几何数据训练）完全解决了P4问题，达到了相当于银牌获得者的水平。这证明了自形式化和强化学习在提升大模型数学解题能力方面的巨大潜力。

AlphaProof 的成功之处在于其将问题分解为两个独立的子任务：形式化和证明。这种分而治之的策略可以有效地降低问题的复杂度，并允许针对每个子任务使用不同的技术。

2. Lean-STaR

Lean-STaR 通过整合一个利用现有大模型的自然语言推理能力的“思考器”组件，增强了定理证明能力。

Lin et al. (2024) 在他们的论文 “Lean-STaR: Learning to Interleave Thinking and Proving” 中详细介绍了 Lean-STaR 的工作原理。

给定一个证明状态，模型预测下一步（“策略”），然后在LEA中执行和验证，并将反馈提供回模型。Lean-STaR 的独特之处在于将大模型生成的自然语言文本思考过程融入到输入中。

训练包括两个阶段：初始化和强化学习。最初，现有的大模型从证明状态和步骤中生成文本推理。然后，这些生成的想法与证明状态和步骤结合在一起，作为训练模型的输入。初始化步骤有助于减少语义上不相关或不正确的模型结果。随后，在Lean的验证结果指导下的强化学习，进一步完善模型性能。

卡内基梅隆大学的 Sean Welleck 在 Week 10 的讲座中，探讨了如何利用人工智能桥接非形式化和形式化数学推理。

在该研究发表后，融入自然语言思考过程已成为基于大模型的定理证明的常见组成部分。这表明，将人类的思考方式融入到大模型的训练中，可以有效地提升其推理能力。例如，在解决一个复杂的数学问题时，人类通常会先进行一些初步的思考和分析，然后再进行详细的计算和证明。Lean-STaR 试图模拟这种思考过程，从而帮助大模型更好地理解和解决问题。

利用外置验证和强化学习加速LLM推理能力发展

尽管存在显著的数据挑战，但利用外部验证和强化学习正在推动大模型朝着推理能力的下一个阶段发展。这种改进可以帮助智能体在数学推理及其他领域达到“超人”的表现水平。

外置验证确保模型输出的正确性，避免幻觉。强化学习则通过奖励正确的推理步骤，惩罚错误的推理步骤，引导模型学习更有效的推理策略。通过两者的结合，大模型可以不断提高其推理能力，最终达到甚至超越人类水平。

例如，在医疗诊断领域，利用经过形式化验证和强化学习训练的大模型，可以辅助医生进行更准确的疾病诊断，减少误诊率。在金融领域，可以利用这些模型进行更精确的风险评估和投资决策，提高投资回报率。

未来展望

大模型在数学推理领域的发展前景广阔。随着自形式化技术的不断进步，以及强化学习的广泛应用，我们有望看到大模型在解决复杂数学问题方面取得更大的突破。

未来的研究方向包括：

提升自形式化能力：开发更有效的自形式化算法，将更多的非形式化数学知识转换成形式化的表示。
改进强化学习策略：设计更有效的强化学习奖励函数，引导大模型学习更优秀的推理策略。
扩展到其他领域：将数学推理的成功经验推广到其他需要复杂推理的领域，例如科学发现、工程设计等。

我们有理由相信，在不久的将来，大模型将在数学推理领域发挥越来越重要的作用，并为人类带来更多的惊喜。

大模型智能体在数学推理领域的突破：UC Berkeley Spring 2025 进展解读