大语言模型真的会推理吗？一项苹果研究揭示“思考的错觉”

近年来，大语言模型(LLM)，尤其是像OpenAI的o1/o3、Claude Sonnet Thinking、Gemini Thinking等大型推理模型(LRM)的涌现，让人们看到了通用人工智能(AGI)的曙光，特别是在数学和推理基准测试中的出色表现。然而，这些模型的推理能力是否具备真正的泛化性，能否在复杂的“真实世界”环境中有效运作，而不是仅仅停留在模式匹配的层面，仍然是一个悬而未决的问题。最近，苹果研发团队发布了一篇名为“思考的错觉：通过问题复杂性的视角理解推理模型的优势与局限性”的重磅论文，引发了广泛关注。本文将深入探讨该论文的核心观点，并结合其他相关研究，剖析LLM和LRM在推理能力方面的真实水平。

问题复杂性与推理能力

苹果的研究人员假设，现有的基准测试可能存在数据污染问题，因此他们设计了一系列谜题环境，以便系统性地调整问题复杂性。这些谜题包括：汉诺塔（复杂度由初始盘子数量决定）、跳棋（复杂度由棋子数量决定）、渡河问题（复杂度由演员和代理人数量决定）以及积木世界（复杂度由积木数量决定）。研究结果表明，在较低的问题复杂性下，LLM表现良好，效率高。当问题复杂性达到中等水平时，LRM开始展现优势。然而，当问题复杂性超过一定阈值后，无论是LLM还是LRM，其性能均直线下降至接近于零。

例如，在汉诺塔游戏中，当盘子数量较少时（例如3个），LLM可以通过预训练数据中的信息或简单的规则推理来解决问题。但当盘子数量增加到7个甚至更多时，LLM需要更深层次的逻辑推理和规划能力，这时模型的性能就会显著下降。这表明LLM和LRM的推理能力并没有随着模型规模的扩大而线性提升，而是存在一个无法逾越的问题复杂性瓶颈。

论文还观察到，LRM的“思考token”（用于推理过程的token数量）会随着问题复杂性的增加而增加。然而，当问题复杂性达到模型崩溃的临界点时，思考token的数量反而减少，这暗示模型可能已经放弃了推理的努力，如同“承认失败”一般。这或许揭示了LLM和LRM在推理能力方面存在一个根本性的扩展限制。

数据污染与泛化能力

除了问题复杂性之外，数据污染也是影响LLM和LRM 推理能力的重要因素。如果训练数据中包含了大量与测试数据相似的题目和解法，模型就可能通过记忆而不是真正的推理来完成任务。

为了验证这一观点，研究人员设计了GSM-IC数据集，该数据集是在标准Grade School Math (GSM)数据集的基础上添加了无关信息。实验结果表明，大多数LLM容易受到无关信息的干扰，导致解答错误，即使它们能够正确解答未受干扰的问题。例如，原始题目是“小明有5个苹果，小红有3个苹果，他们一共有多少个苹果？” LLM可以轻松给出答案“8个”。而添加干扰信息后，题目变为“小明有5个苹果，他昨天吃了2个苹果，小红有3个苹果，他们一共有多少个苹果？” 一些LLM可能会误将“昨天吃了2个苹果”这一信息纳入计算，从而得出错误的答案。

这说明了 LLM 在真实场景下，如果题目添加了不必要的干扰因素，将会直接影响到模型的推理能力，从而证明LLM的推理能力并没有想象中的那么强大。

Token偏见与表层模式匹配

“A Peek into Token Bias: Large Language Models Are Not Yet Genuine Reasoners” 这篇论文则从另一个角度揭示了LLM和LRM的局限性。该论文提出了“Token偏见”的概念，即如果对任务描述中的某些token进行系统性修改，模型的输出会发生可预测的变化。这意味着模型并没有真正理解问题的本质，而是通过识别某些关键词或短语来匹配预训练数据中的模式。

一个经典的例子是“二十五匹马”的图论问题。研究人员将“马”改为“兔子”，将“25”改为“36”，结果发现，大多数LLM能够解决原始问题（或从训练数据中直接复制答案），但无法解决经过修改后的问题。这表明LLM并没有理解问题的逻辑结构，而是依赖于特定token的组合来输出答案。

另一个例子是利用常见的统计谬误，如三段论谬误和合取谬误，构建合成数据集。研究人员发现，LLM在这些数据集上的表现往往不尽人意，这进一步印证了 LLM 缺乏真正的推理能力，而仅仅是进行表层的模式匹配。

符号替换与泛化推理

GSM-Symbolic数据集进一步探讨了 LLM 在数学推理能力方面的局限性。该数据集通过用符号替换数字，要求模型进行泛化推理。例如，将题目中的具体数字替换为符号，例如用 “α” 代替 “5”，用 “β” 代替 “3”。

实验结果表明，大多数常见的 LLM 无法解决经过符号替换后的问题。例如，原始题目是 “小明有5个苹果，小红有3个苹果，他们一共有多少个苹果？” 符号替换后的题目是 “小明有α个苹果，小红有β个苹果，他们一共有多少个苹果？” LLM 需要理解符号代表数字的概念，并进行抽象的加法运算，但很多模型无法做到这一点。这表明 LLM 难以进行抽象和泛化的推理能力，而是依赖于对具体数值的记忆和计算。

复杂度递增的证明与外推能力

MathGap数据集则侧重于评估 LLM 在解决具有任意复杂证明的问题时的外推能力。研究人员构建了一个合成数据集，其中包含数学文字题 (MWP) 及其证明树。证明树描述了问题的复杂性和解决方案（以树的深度、宽度、形状和节点顺序来衡量）。

通过逐渐增加测试集问题的复杂度（与上下文示例相比），研究人员发现，所有 LLM 的性能都会随着证明树的宽度和深度的增加而稳步下降。这表明，即使 LLM 能够通过链式思考 (CoT) 的方式逐步推导答案，但在面对复杂度超出训练范围的问题时，其 推理能力 仍然会受到限制。

ARC-AGI：抽象推理的终极挑战

ARC (Abstraction and Reasoning Corpus) 是一个用于评估通用人工智能的基准测试，它要求模型根据给定的输入-输出网格对推断出隐藏的转换规则。该基准测试旨在抵抗过拟合和记忆，并尽可能减少先验知识的需求。

OpenAI 的 o3 模型曾通过使用测试时自适应的方法（即利用大量的计算资源对测试数据进行微调）在该基准测试上取得了显著的成绩。然而，ARC-AGI-2 的出现旨在解决 ARC-AGI 的一些漏洞，例如，它能够抵御计算密集型搜索方法和非泛化的 推理能力，同时避免了人类评估者可以轻松获得高分的情况。研究人员发现，截至 2025 年 5 月，大多数 LLM 和 LRM 在 ARC-AGI-2 上的得分仅为 3%。

ARC-AGI-2 高度依赖抽象推理能力，如果仅仅依靠训练数据或者简单的模式匹配很难拿到高分，更加能够体现模型的推理能力，而LLM的表现不佳也意味着要达到通用人工智能还有很长的路要走。

结论

总而言之，现有的研究表明，LLM 和 LRM 在推理能力方面仍然存在诸多局限性。它们容易受到问题复杂性、数据污染、Token偏见等因素的影响，难以进行泛化推理、抽象推理和外推推理。虽然这些模型在某些任务上表现出色，但这更多地是得益于对预训练数据的记忆和模式匹配，而不是真正的理解和推理。

尽管如此，我们也不能完全否定 LLM 和 LRM 在 推理能力 方面的潜力。随着模型规模的不断扩大、训练数据的不断丰富以及推理算法的不断改进，未来的 LLM 和 LRM 或许能够突破现有的瓶颈，实现更高级别的 推理能力。但在此之前，我们需要保持清醒的认识，避免过度解读这些模型的能力，并继续深入研究其内在机制，以便更好地理解和利用它们。

未来的研究方向可以包括：

开发更鲁棒、更抗干扰的推理能力训练方法。
探索能够提高模型泛化能力和抽象能力的架构设计。
设计更具挑战性的基准测试，以全面评估模型的推理能力。
研究如何将符号推理和神经推理相结合，以提升模型的推理能力。

只有通过不断地探索和创新，我们才能真正揭开 LLM 和 LRM 推理能力 的神秘面纱，并最终实现通用人工智能的梦想。

大语言模型真的会推理吗？一项苹果研究揭示“思考的错觉”