苹果揭开大模型“思考幻觉”的面纱：LLM与LRM的推理能力之辩

近年来，大型语言模型（LLMs）展现出令人惊叹的能力，从流畅的对话生成到解决复杂的考试题目、编写代码等等，让人们对通用人工智能的未来充满期待。然而，苹果公司在2025年6月发布的论文《思考的幻觉》（Illusion of Thinking）对此提出了质疑：LLM真的具备像人类一样的推理能力吗？或者说，它们只是凭借记忆和概率预测来生成连贯的文本？本文将深入探讨这篇论文的核心观点，剖析LLM和新兴的LRM（大型推理模型）在不同复杂程度任务下的表现，以及由此引发的关于人工智能推理能力本质的思考。

从LLM到LRM：推理能力的进阶与局限

为了提升模型的推理能力，研究人员提出了LRM，它模拟人类的“链式思考”机制，在生成答案之前进行自我反思。诸如ChatGPT用户界面中“思考更长时间”或“运行深入研究”等选项，都指向了LRM的潜在应用。尽管LRM在各种基准测试中表现出良好的结果，似乎更接近通用人工智能，但其推理的本质仍然存在疑问。苹果公司的论文提出了几个关键问题：这些模型仅仅是在进行模式匹配吗？它们能否进行泛化的推理？随着问题复杂性的增加，它们的表现如何变化？在相同推理token预算下，LRM相比LLM的优势在哪里？

基准测试的局限性：寻找更精确的评估方法

传统的数学和编码基准测试存在一些问题，例如数据污染和缺乏对推理过程的精确控制。苹果研究人员提出了一种替代方案：谜题。这些谜题可以精确控制复杂性，避免传统基准测试中常见的数据污染，并需要明确的规则，从而强调算法推理。研究人员设计了四个可控的谜题，涵盖了组合深度、规划复杂性和分布设置：汉诺塔、跳棋、过河问题和积木世界。每个谜题都通过改变问题规模N（例如，圆盘数量、积木数量等）来调整复杂性。这些谜题旨在模拟我们在小学时学习的逻辑思维训练。

研究发现，在MATH500等基准测试中，在相同的推理token预算下，LLM和LRM的表现相当。然而，在AIME24测试中，LRM展现出一定的优势，而在AIME25测试中，这种优势进一步扩大，尤其是在使用Claude-3.7-Sonnet和DeepSeek模型时。有趣的是，人类在AIME25上的表现优于AIME24，表明AIME25相对简单，但模型在AIME25上的表现却更差，这可能表明LRM的训练数据存在污染。因此，与传统的数学基准测试相比，谜题能够提供更精确和系统的实验。

复杂性与Token预算：推理模型的困境

实验结果显示，在问题复杂度较低时，非“思考”模型（LLM）的表现与“思考”模型（LRM）相当，甚至在token效率方面更胜一筹。当问题复杂度适中时，“思考”模型由于其“链式思考”机制而展现出优势。然而，当问题复杂度进一步增加时，两种模型的性能都崩溃至零！

一个令人担忧的现象是，即使研究人员向推理模型提供了解决方案算法，模型只需要执行规定的步骤，性能也没有得到改善！这意味着模型无法有效地利用提供的知识来解决复杂问题。

更进一步的分析表明，随着问题复杂性的增加，推理模型的token分配也相应增加。然而，当模型性能接近崩溃时，它们却开始减少推理工作，即使仍然有充足的推理预算可用。这种现象在o3-mini变体中尤为明显，表明推理模型在处理复杂问题时存在可扩展性限制。这暗示着，仅仅增加计算资源并不能有效地提升模型在复杂推理任务中的表现。模型似乎无法有效地将增加的计算能力转化为实际的推理能力。

元推理：通往真正推理的关键？

苹果公司的研究人员指出，与人类类似，模型在处理复杂问题时也会遇到困难，尤其是在处理大量token时。为了解决这些问题，模型应该首先识别问题的难度，并相应地进行调整。模型可以使用多种技术，例如近似、分解成子问题或设计其他策略。这种识别问题难度并自适应地调整推理策略的能力被称为元推理。

元推理是指模型能够反思自己的推理过程，并根据问题的难度和自身的局限性调整策略。例如，当模型意识到某个问题过于复杂时，它可以尝试将其分解为更小的、更易于管理的部分，或者使用近似方法来获得一个合理的答案，而不是试图找到一个完美的解决方案。

目前的大模型，无论LLM还是LRM，都缺乏这种元推理能力。它们往往盲目地执行预设的推理流程，而无法根据实际情况进行灵活调整。这导致它们在面对复杂问题时，容易陷入困境，即使拥有大量的计算资源也无法有效解决。

局限性与未来展望：AI推理之路依然漫长

需要指出的是，苹果公司的这项研究仅关注推理任务的一个狭窄领域，并未涵盖现实世界中知识密集型的推理或更广泛的思考问题。例如，模型在理解和应用常识知识、进行类比推理或解决需要创造性思维的问题方面的表现如何，还需要进一步的研究。此外，该研究主要集中在特定类型的谜题上，这些谜题可能无法完全代表真实世界中的复杂问题。

尽管如此，这项研究的结果仍然具有重要的价值，它提醒我们，目前的人工智能模型在推理能力方面仍然存在很大的局限性。我们不能过分高估它们的能力，而是应该保持清醒的头脑，认识到真正的推理能力仍然是人工智能研究的一个长期目标。

虽然我们目前还无法创造出真正具有通用推理能力的人工智能，但我们可以从苹果公司的这项研究中获得一些启示。未来的研究方向可以包括：

开发更有效的元推理机制： 让模型能够识别问题的难度，并自适应地调整推理策略。
构建更丰富的知识库： 让模型能够利用常识知识和领域知识进行推理。
探索新的推理算法： 借鉴人类的推理方式，开发更灵活、更有效的推理算法。
改进模型的训练方法： 采用更有效的训练方法，让模型能够更好地学习和泛化。

总之，LLM和LRM的推理能力评估是一个复杂而充满挑战的领域。苹果公司的研究揭示了当前模型在处理复杂问题时存在的局限性，同时也为未来的研究指明了方向。在通往真正通用人工智能的道路上，我们还有很长的路要走。我们需要不断探索新的方法，才能最终创造出能够像人类一样思考和推理的智能系统。理解并克服这些局限性对于未来AI的发展至关重要，也只有这样，我们才能真正释放人工智能的潜力，并将其应用于解决现实世界中的复杂问题。

苹果揭开大模型“思考幻觉”的面纱：LLM与LRM的推理能力之辩