大模型推理的幻觉：Apple揭示AI“思考”的局限性

人工智能在问答、数学计算甚至代码编写方面的能力突飞猛进。特别是大模型推理（Large Reasoning Models，LRMs），通过生成逐步的推理过程来模拟人类思考，被寄予厚望。然而，Apple最近的一项研究“思考的幻觉：通过问题复杂性视角理解推理模型的优势与局限性”揭示了一个令人警醒的现实：这些看似“思考”的AI模型存在严重的可扩展性缺陷。随着任务难度的增加，它们的性能不仅停滞不前，反而会急剧下降。更令人费解的是，面对真正困难的问题时，即使有充足的“思考”空间，模型反而会减少“思考”（产生更短的推理链）。换句话说，当遇到棘手的难题时，现有的最佳推理AI常常选择放弃，而不是更加努力地尝试。这一发现颠覆了我们以往的认知，即简单地赋予AI更多的“脑力”或“思考”时间就能解决更复杂的问题。

推理能力测试：难题的选择

如何真正检验AI的推理能力？Apple的研究人员没有采用传统的数学应用题（模型可能已经见过），而是选择了经典的逻辑难题作为测试平台。他们设计了可控的难题环境，可以精确地调整难度，同时保持底层规则不变。通过这种方式，他们可以观察到，当问题从简单到极其困难时，经过推理增强的模型（带有逐步思考的LRM）和普通的大语言模型（LLM）的表现如何。他们选用了四个著名的难题作为基准：

汉诺塔（Tower of Hanoi）：在严格的规则下（每次只能移动一个盘子，且不能将较大的盘子放在较小的盘子上），将N个盘子从一个桩移动到另一个桩。随着盘子数量的增加，这个难题的难度呈指数级增长（例如，5个盘子至少需要31步，而10个盘子需要1023步）。
过河问题（River Crossing）：使用最多能载k人的船只，将N对角色（通常是传教士和野人）运送到河对岸。限制条件是，不能让任何“传教士”在没有自己伴侣的情况下与不同的“野人”单独相处。这个难题的复杂性随着需要运输的对数增加而增长。
跳棋难题（Checkers Jumping Puzzle）：一个一维的棋盘难题，左边有N个红色棋子，右边有N个蓝色棋子，中间有一个空位。目标是通过移动或跳跃棋子来交换两边的位置。棋子越多（总共2N个），需要的步数就越多——事实上，最小步数随着棋子数量的增加呈二次方增长。
积木世界（Blocks World）：一个经典的规划难题，其中积木堆叠成堆。任务是将一个积木配置转换为另一个积木配置，每次移动一个积木。复杂性来自于积木的数量以及将它们重新排列成目标堆叠顺序所需的步骤。

每个难题都提供了一种控制复杂性的方法（增加盘子、对数、棋子、积木），而无需改变问题的基本逻辑。这种设置使得研究人员能够公平地衡量AI的推理能力如何随着挑战的增加而保持。更重要的是，他们为每个难题配备了一个软件模拟器，用于检查模型解决方案的每一步是否有效。本质上，AI必须“展示它的工作过程”，并且模拟器会指出任何非法移动或计划在到达目标之前失败的情况。这使团队能够深入了解模型不仅最终是否找到答案，而且还了解它是如何尝试到达那里的以及它在哪里出错。

为了使比较公平，每个模型（推理模型与标准模型）都获得了相同的巨大计算预算——实际上，是一个极大的上下文长度（高达64,000个tokens）——因此，在这些测试中，不会出现“思考空间”不足的问题。研究人员提示经过推理增强的模型生成逐步解决方案（它们的思考链），而提示标准模型直接给出答案。研究团队甚至多次运行每个难题（每个难题25次尝试），并带有轻微的随机性，以查看AI解决难题的频率，并平均得出幸运或偶然的结果。这种严格的设置确保了任何性能差异都是由于模型的推理能力，而不是由于偶然性或微不足道的优势。

性能的三种阶段：易、中、难

该论文的主要结果之一是，随着问题复杂性的增加，推理模型（LRM）和标准模型都表现出三种不同的性能状态。简而言之，研究人员在成功率中看到了一个三阶段的模式：

低复杂度——“少即是多”：在简单的任务上，没有任何特殊推理步骤的标准LLM实际上优于LRM。这是一个令人惊讶的结果——人们可能会认为，一个明确“思考”的AI在简单问题上的表现永远不会更差。但数据表明，额外的推理步骤可能会在基本模型可以直接回答的非常简单的难题中引入开销甚至混淆。推理模型有时会有效地过度思考问题：例如，它可能会快速得出正确的答案，然后继续思考并反复猜测自己，直到回到错误的答案。相比之下，标准模型只是直奔主题并给出正确的答案。结论是，对于简单的难题来说，花哨的思考链方法并不总是值得的——这就像使用显微镜来阅读大字版书籍。
中等复杂度——推理的价值：对于中等难度的难题，LRM开始领先。在这里，思考链变得非常有用。研究发现，在中等复杂度的难题上，经过推理增强的模型可以成功解决困扰普通模型的问题。通过写下一张中间步骤的草稿纸，LRM可以管理普通模型无法在脑海中处理的多步骤逻辑。这证实了为什么思考链提示在AI中如此重要——它确实有助于处理一定难度的问题，使得模型能够更可靠地处理多步骤问题。在这种状态下，更多的思考（以适当的方式构建）确实等于更好的结果。
高复杂度——崩溃：超过某个临界复杂度阈值后，两种模型都会完全失败，并且成功率几乎降至零。这是最令人担忧的状态。超过某个点后，增加盘子、对数或积木的数量会导致推理模型和标准模型的准确性完全崩溃。当难题变得过于复杂时，AI根本无法找到正确的解决方案。这不是一个缓慢的下降或准确性的轻微下降——它被描述为突然的失败，模型只是开始挣扎，并且一旦复杂度超过那个临界点，几乎永远无法解决问题。这种情况发生在他们测试的每个难题领域中，表明当前模型的问题解决能力存在根本限制。

至关重要的是，这些三种状态在不同的难题和不同的模型类型中都得到了持续的观察。事物崩溃的确切截止点可能因任务和模型而异，但模式仍然存在：LRM可能会可靠地解决汉诺塔难题，最多可以处理8个盘子，然后突然无法处理9个及以上的盘子——即使9个盘子只是增加了复杂性的一步。这种鲜明的三模态行为（赢在小处，挣扎在中等，大处失败）表明，当今AI的推理能力无法平稳扩展。它们会撞到一堵坚硬的墙，超过这个点，投入更多的计算或更长的思考链都不会带来性能的提升。

崩溃点的深入观察

为了使崩溃更加具体，可以考虑汉诺塔的结果。这些模型可以处理最多一定数量的盘子的配置（成功解决了许多实例），但是一旦盘子的数量超过了那个神奇的数字，它们的成功率就会降至几乎零。这就像一个经验丰富的难题解决者突然忘记了如何解决一个稍微大一点的难题，尽管该难题遵循相同的规则。该论文指出，这种失败不是因为缺乏尝试或缺乏计算——每个模型都有多达64k个tokens用于思考，并且他们甚至给了它25次机会来成功解决每个实例。尽管有如此宽裕的余地，但一旦超过了复杂度阈值，一切都无济于事。这意味着崩溃是由于根本缺乏推理能力，而不仅仅是因为时间或内存不足。AI根本不知道如何进行如此深入的推理，即使它被允许这样做。用研究人员的话来说，这表明“相对于问题复杂性，当前推理模型的思考能力存在根本的扩展限制”。

思考越多，结果越少

Apple研究中最令人惊讶的发现也许是研究人员所说的这些推理模型的“违反直觉的扩展限制”。通常，如果一个问题变得更加困难，我们期望一个好的推理者更加努力地工作——花费更多的时间，考虑更多的步骤——来解决它。令人惊讶的是，一旦难题变得非常困难，LRM的情况恰恰相反：模型实际上开始产生更短的解决方案和推理轨迹来解决最困难的问题，有效地减少了它们的努力，而此时正需要更多的努力。换句话说，AI开始放弃。研究表明，超过中等复杂度范围后，随着难题变得极具挑战性，用于思考链的平均tokens数量（用于思考的tokens）开始下降，而不是增加。该模型会尝试一个简短的解决方案或提前放弃尝试，即使它仍然有足够的tokens预算来继续推理。

这种行为在多个模型和难题中都得到了验证——这不是偶然现象。这就像AI在内部“意识到”一个问题太难，然后说：“我一无所知——最好现在就停止。” 从外部角度来看，这看起来像是懒惰或放弃：当情况变得艰难时，AI就会停止前进。研究人员将这种现象称为“思考不足”（过度思考的反面）——该模型没有在最困难的任务上使用其所有可用的脑力。这是非常违反直觉的。我们期望一个有能力的问题解决者在面对挑战时至少使用其所有可用的资源。看到AI保留努力既令人困惑又令人担忧，因为它表明某些隐含的训练启发式或限制正在发挥作用。作者提出的一个理论是，在训练期间，模型很少遇到超长的推理链会获得奖励的例子。如果训练数据不包括需要非常长的解决方案的超难问题，那么该模型可能在不知不觉中学到了一种策略，即在一定时间后，继续思考是不值得的。本质上，它学到了一个努力的截止点：如果在X步内未找到解决方案，最好停止。这种学到的行为可能会优化训练中的平均性能，但对于真正需要坚持的难题来说，它是有害的。

这里的结论是惊人的：给AI一个更大的“大脑”（更长的上下文，更多的计算）并不能保证它会使用它。简单地扩展模型大小或tokens限制无法解决这个问题，因为一旦模型超过其舒适区，它可能仍然选择不再思考更多。这揭示了当前AI 推理的一个隐藏限制：它们缺乏元认知能力来知道何时继续更加努力地尝试。用人类的话来说，就像一个学生过早地放弃了一个困难的数学问题，而没有意识到认真地完成更多步骤最终可能会产生答案。

另一极端：过度思考

有趣的是，该研究还观察到在任务的非常简单的一端存在相反的问题：一种“过度思考”现象。当难题很简单时，思考链模型有时会快速找到正确的解决方案，但并没有就此止步。它会继续生成额外的非必要步骤或探索替代路径，其中一些路径会使其误入歧途并得出错误的答案。模型给出的最终答案可能是错误的，即使它字面上在中间步骤中得出了正确的答案，然后“说服自己放弃了它”。这种过度思考的行为意味着更多的思考实际上损害了简单任务的性能——这也是其他研究人员先前指出的一个适得其反的怪癖。在实践中，推理模型有时无法判断它何时已经找到了解决方案，因此它会继续搜索并把它搞砸。人类也会成为这种现象的受害者——想象一下解决一个谜语，然后过度分析它并反复猜测你的正确答案。对于AI来说，这突显了其推理过程中缺乏可靠的停止标准或置信度检查。它并没有真正“知道它知道”答案，因此它可能会不必要地继续搜索。

窥视AI的思考过程

这项研究的一个强大之处在于，通过检查逐步解决方案轨迹（思考链），作者可以诊断出模型失败的方式和地点。对于中等难度的难题，推理轨迹通常显示该模型在最终偶然发现正确解决方案之前尝试了几种错误的方法。这表明该模型确实具有探索和回溯的能力——有点像集思广益地提出解决难题的多种方法——这是一个积极的信号。然而，在高复杂度的情况下，轨迹讲述了一个不同的故事：正确的途径甚至从未出现在尝试移动的长流中。模型的思考过程会游荡和挣扎，但它永远找不到通往解决方案的道路。似乎随着复杂性的增长，模型可能想到正确主意的点被推得越来越远（在思考链中越来越晚），直到最终完全超出视野。换句话说，如果一个解决方案需要，比如说，50个步骤的正确推理，那么该模型可能只能连贯地串联起30个步骤——超过这个范围，它就会迷失方向。这与观察到的崩溃相符：模型对解决方案的内部搜索根本无法扩展到所需的深度。

研究人员还进行了一项特别具有启发性的实验：他们实际上在提示中向模型提供了解决其中一个难题（汉诺塔）的正确算法。他们将最佳的逐步过程作为已知的经典算法解决方案“喂给”了LRM，本质上是要求它遵循该配方而不是推导出它。人们可能会希望，如果模型无法自行发现解决方案，也许它可以至少执行一个给定的计划。令人震惊的是，即使在算法交付给它的情况下，该模型仍然无法处理足够复杂的实例！该模型会在一段时间内正确地遵循指令，但是随着移动次数的增加，它最终会出错并做出非法或错误的移动，从而破坏解决方案。它无法忠实地执行很长的逻辑步骤序列而不会出错。一位评论员将此结果称为“算法执行炸弹”，因为它表明问题不仅仅是AI无法找到解决方案——它还难以可靠地执行已知的正确解决方案过程，超过一定的长度。这一发现有力地表明，当前的AI 推理是脆弱的。即使在所有思考都已完成（理论上）并且仅需要机械执行的情况下，模型的虚假推理也可能会动摇。这有点像一个人知道解决难题的公式，但在尝试应用它时，一旦步骤序列变得太长而无法在脑海中管理时，就会犯下粗心的错误。

另一个有趣的观察结果是模型在不同难题中的能力不一致。例如，该论文指出，一个先进的推理模型（Anthropic的Claude在“思考”模式下）可以几乎完美地解决一个有5个盘子的汉诺塔实例（同样，需要31步），甚至可以处理多达10个盘子的实例（超过100步），仅在最后犯了一个错误——但是，同一个模型却未能完全解决一个只有3对（最佳11步）的过河难题。它只会管理几个移动，然后做出非法或错误的移动。简而言之，AI可以在一个难题领域中处理几乎长十倍的序列，而在另一个看似更简单的领域中却不能。这种不一致性暗示该模型并没有真正以通用方式掌握潜在的逻辑原理；相反，它可能发现汉诺塔难题更熟悉或更容易进行模式匹配（可能是因为汉诺塔的例子在训练数据中很常见或遵循重复的算法模式），而过河任务则更不熟悉且组合性棘手。事实上，研究团队指出，汉诺塔经常出现在在线资源中，因此该模型可能间接地看到了许多例子，而特定的过河场景（尤其是对数较多的场景）则更为罕见。这可以解释为什么该模型在一个方面出奇地好，而在另一个方面却出奇地差。它强调了看起来像推理的东西有时实际上可能是识别：该模型可能是在回忆它“知道”的模式，而不是真正从头开始解决问题。

这告诉我们今天AI的推理什么？

总而言之，这些发现描绘了一幅既令人印象深刻又非常脆弱的AI 推理图景。一方面，大模型推理确实在中等水平的问题上显示出明显的改进——它们可以遵循多步骤逻辑并得出正确的答案，而更简单的模型则会失败。这表明当前的AI可以进行一定程度的类似推理的处理，组合步骤以达到目标。但是，它们在光谱的两端（简单和复杂）都失败的事实表明，它们不是强大的通用问题解决者。相反，它们似乎是专门的模式解决者，可以在一定的难度范围内工作。一旦超出该舒适区，通用推理的幻觉就会迅速崩溃。

“思考的幻觉”的作者强调，当今最先进的推理AI缺乏可泛化、可靠的推理能力。它们产生的详细推理轨迹很容易误导我们，让我们相信该模型具有深刻的理解或逻辑计划——毕竟，输出看起来是合理的。但是正如论文标题所暗示的那样，这可能是一种幻觉。这些轨迹通常是脆弱的外观，在更大的复杂性下会崩溃。即使是自我检查或自我反思机制（模型评估其自身步骤的地方）的存在也无法在这些实验中挽救局面。LRM仍然在难题上遇到障碍，这意味着它们的推理并非基于坚实的算法或符号基础，而是基于从数据中学到的启发式方法。用更简单的术语来说，它们不会像人类或经典算法那样推理问题；它们是在模仿熟悉的模式。当一个实例超出它们所见或可以进行模式匹配的范围时，它们会急剧失败。

这对AI的未来产生了一些重要的影响。首先，它抑制了人们对赋予AI越来越多“思考”并期望其产生真正智能的炒作。更长的答案或更多步骤本质上不是更好推理的标志——正如我们所看到的，有时这是浪费精力甚至有害。我们应该谨慎地将思考过程的外观与实际的问题解决能力等同起来。其次，它表明需要新的方法来克服这些扩展限制。研究人员和评论员提出了诸如将神经网络与符号算法相结合的混合模型之类的想法，以便AI可以在纯粹的基于学习的推理达到其极限时调用可靠的方法。例如，AI可以使用其神经语言能力来理解问题并制定计划，然后使用经典算法或外部工具来逐步执行长期的计算或验证。还有人呼吁采用更好的评估方法：不要仅在一次性问题上测试AI，而是在逐渐变难的任务（例如增加难题大小或更复杂的场景）上测试它们，以查看它们在哪里崩溃。这项研究本身就是一个很好的此类评估示例——它确切地显示了思考的幻觉何时以及如何崩溃。

最后，这项工作提出了一个哲学观点：这些AI模型真的在“推理”吗？如果给它们一个算法没有帮助，并且如果要求它们比它们的训练更深入地进行研究时，它们会放弃，那么我们现在所说的AI 推理实际上是一种复杂的模式完成形式。它们正在完成一个听起来合乎逻辑的答案的模式，而没有真正的推理所必需的灵活、通用的问题解决能力。Apple团队的发现与许多AI怀疑论者的观点相呼应，他们警告说，大语言模型从根本上来说是在模仿推理，但并没有真正地存在于其中。这并不意味着这些模型毫无用处——远非如此。它们在中间状态中非常强大，并且已经表明它们可以在一定程度上帮助完成诸如数学、编码和计划之类的任务。但这确实意味着我们应该小心地盲目信任AI的“推理”，尤其是在高风险或非常复杂的场景中。仅仅因为AI可以逐步解释其答案并不能保证该解释是正确的，也不能保证AI不会在一个稍微困难的问题变体上惨败。

总而言之，“思考的幻觉”提供了一个有价值的现实检查。它庆祝了进步（是的，思考链推理确实在一系列问题上有效），但也揭示了表面之下的脆弱性。对于AI研究人员和工程师而言，信息很明确：更大的模型和更长的思考本身无法解决最困难的问题。我们可能需要新的想法——也许是将逻辑和学习相结合，改进模型如何自我监控其推理，或者重新思考这些网络的体系结构——才能真正实现像我们想象的那样强大地进行推理的AI。在此之前，每当AI自信地引导我们完成其推理时，我们最好记住，一旦难题变得更加困难，这可能都是烟雾和镜子。

大模型推理的幻觉：Apple揭示AI“思考”的局限性