大模型推理能力的幻象：对“思考的幻觉”研究的批判性分析

近年来，大模型（Large Language Models, LLMs）在自然语言处理领域取得了显著进展，其推理能力更是备受关注。然而，苹果公司最近的一项研究“思考的幻觉”(The Illusion of Thinking) (Shojaee et al. 2025) 提出，大型推理模型（Large Reasoning Models, LRMs）的推理性能在问题复杂度超过一定阈值后会发生根本性的崩溃。本文旨在对这项研究的核心论点进行分析和挑战，并参考响应论文“思考的幻觉的幻觉”(The Illusion of the Illusion of Thinking) (Opus & Lawsen 2025) 中提出的证据，探讨LRMs推理能力的真实水平。我们认为，苹果研究报告中的“崩溃”现象可能并非真实反映了推理的失败，而是评估方法本身造成的假象。通过剖析评估方法中存在的关键缺陷，例如误解输出截断、包含无法解决的难题、过度依赖解决方案长度以及忽视替代解决方案格式等问题，我们将论证，在修正这些问题后，LRMs完全有能力处理高复杂度的推理问题，并且不会出现所谓的根本性崩溃。

输出截断与推理失败的误判

苹果公司的研究中，一个关键的错误在于将输出截断（由于Token限制）误判为推理失败。大模型在生成答案时，往往受到 Token数量的限制。当模型在达到Token上限时停止输出，即使它已经产生了部分正确的推理过程，也会被判定为失败。

举例来说，假设需要LRM解决一个需要多个步骤才能完成的复杂数学题。模型可能已经完成了前几个步骤的计算，但在输出最终答案之前，由于Token限制而被迫停止。在这种情况下，苹果的研究可能会将其判定为“推理失败”，而实际上模型已经具备了解决问题的部分能力。

要证明这一点，我们可以设计一个实验，逐步放宽 Token 限制，并观察模型是否能随着Token数量的增加而给出更完整、更准确的答案。如果模型在Token数量充足的情况下能够成功解决问题，那么就可以有力地反驳苹果研究中关于推理崩溃的论点。此外，还可以采用类似于“逐步提示”（Step-by-Step Prompting）的技术，将复杂问题分解为多个更小的子问题，引导模型逐步生成答案，并减少单次输出所需的 Token 数量。

不可解难题的影响

苹果的研究的另一个关键问题是，它包含了不可解的难题。在评估LRMs的推理能力时，如果测试集中包含了模型无法解决的问题，就会导致对模型能力的低估。

设想一个场景：研究人员向LRM提出一个逻辑推理题，该题目本身存在逻辑漏洞，或者缺少必要的信息，因此无论如何都无法得出正确的结论。如果LRM无法给出“正确”答案，苹果的研究可能会认为这是LRM推理能力不足的表现。

为了解决这个问题，评估数据集必须经过严格的审核和验证，确保所有题目都是逻辑自洽、信息完备且存在唯一解的。此外，应该允许模型在无法解决问题时给出“无法解答”或“问题存在矛盾”等回应。如果模型能够正确地识别出不可解的问题，那么这恰恰说明了模型具备一定的批判性思维能力，而非推理能力的缺失。

以解决方案长度衡量复杂度

苹果的研究还过度依赖解决方案长度作为问题复杂度的指标。解决方案的长度并不总是与问题的难度成正比。有些复杂的问题可能只需要简洁的答案，而另一些简单的问题则可能需要冗长的解释。

例如，一个需要进行复杂计算的数学问题，其答案可能只是一个简单的数字，而一个需要详细解释原因的简单逻辑题，则可能需要很长的篇幅。如果只根据答案的长度来判断问题的难度，就会导致对模型推理能力的误判。

更合理的做法是，综合考虑多个因素来评估问题的复杂度，例如：解决问题所需的步骤数量、涉及到的知识领域数量、逻辑推理的深度等等。此外，还可以采用专家评估的方式，让领域专家对题目的难度进行打分，从而得到更客观、更准确的复杂度指标。

忽略替代解决方案格式

苹果的研究忽略了替代解决方案格式。LRMs具备生成多种不同格式答案的能力。如果研究只接受特定格式的答案，就会导致对模型能力的低估。

例如，在解决一个几何问题时，模型既可以用文字描述解决方案，也可以用图形来表示解决方案。如果研究只接受文字描述，而忽略了图形解法，那么就会错过模型正确解决问题的信息。

为了避免这种情况，评估过程应该更加灵活，允许模型以多种不同的格式来呈现答案。同时，评估人员需要具备专业的知识，能够理解和评估不同格式的答案，确保模型的能力得到充分的展示。此外，还可以引入自动评估技术，例如使用计算机视觉算法来识别图形答案中的关键信息，从而提高评估的效率和准确性。

案例分析与数据支持

为了更深入地理解上述问题，我们参考“思考的幻觉的幻觉” (Opus & Lawsen 2025) 中的一些案例和数据。该论文指出，在排除了不可解的问题，放宽Token限制，并允许模型以多种格式呈现答案后，LRMs在解决高复杂度问题时的表现显著提升。

具体来说，该论文展示了一个涉及复杂逻辑推理的案例，原先苹果的研究认为LRM无法解决该问题，但在允许模型逐步推理，并给出更长的答案后，模型成功地找到了正确答案。此外，该论文还提供了一些统计数据，表明在修正了评估方法后，LRMs在不同复杂度问题上的准确率都得到了显著提升。

这些案例和数据有力地反驳了苹果研究中关于LRM推理能力崩溃的论点，证明LRMs在具备足够资源和适当引导的情况下，完全有能力处理高复杂度的推理问题。

对推理基准测试的启示

苹果的研究虽然存在一些方法论上的缺陷，但它也为我们设计更公平、更具信息量的推理基准测试提供了重要的启示。

首先，在设计评估数据集时，需要确保所有题目都是逻辑自洽、信息完备且存在唯一解的。其次，应该允许模型以多种不同的格式来呈现答案，并采用灵活的评估方法，充分展示模型的能力。第三，应该综合考虑多个因素来评估问题的复杂度，避免过度依赖解决方案长度等单一指标。最后，应该与领域专家合作，对评估数据集进行严格的审核和验证，确保评估结果的客观性和准确性。

通过改进评估方法，我们可以更准确地了解LRMs的推理能力，并为未来的研究提供更可靠的基础。这将有助于我们更好地利用LRMs解决实际问题，推动人工智能技术的进一步发展。

结论

综上所述，苹果公司关于LRMs推理能力崩溃的研究“思考的幻觉”可能存在一些方法论上的缺陷。输出截断、不可解难题、过度依赖解决方案长度以及忽略替代解决方案格式等问题，都可能导致对模型能力的低估。通过修正这些问题，我们可以发现LRMs在处理高复杂度推理问题时，展现出强大的能力。因此，在评估人工智能推理模型时，精心设计的评估方法至关重要。只有采用更公平、更具信息量的评估基准测试，才能真正理解AI推理模型的真实能力，并推动人工智能技术的进步。未来，对大模型推理能力的评估需要更加全面和精细，避免被评估方法本身的“幻觉”所迷惑。

大模型推理能力的幻象：对“思考的幻觉”研究的批判性分析