大语言模型(LLM)在各种任务中展现出惊人的能力,但对其推理能力的质疑从未停止。本文深入探讨了关于AI“思维幻觉”的讨论,从Shojaee et al.最初的“思维幻觉”观点,到后续一系列的评论和反驳,层层剖析LLM推理能力的真实现状,以及我们如何更有效地评估和提升这一关键能力。最终,我们希望摆脱无尽的“幻觉”循环,构建真正具备可靠推理能力的AI系统。

“思维幻觉”的起源与争议:表象之下的脆弱

Shojaee et al.(2025)最初提出的“思维幻觉”概念,源于对大语言模型(LRM,具备链式思考能力的大型语言模型)在复杂推理谜题上的表现分析。他们的研究揭示了一个令人担忧的趋势:随着问题复杂性的增加,LRM的准确率急剧下降,甚至不如一些在简单任务上表现更好的基线模型。这一现象表明,当前AI所展现出的推理能力可能只是表面的,难以泛化到更困难的问题,因此产生了“思维幻觉”。例如,在解决“汉诺塔”这类逻辑谜题时,当盘子数量较少时,LLM可以给出正确的步骤,但当盘子数量增加,问题复杂性提高后,LLM的回答准确率骤降,甚至出现逻辑混乱。

这一观点迅速引发了一系列回应,每一轮回应都在之前的分析基础上增加了一层元分析,并在标题中增加一个“幻觉”。这种递归式的讨论,如同俄罗斯套娃般,不断深入,但也容易陷入无休止的争论,难以触及问题的核心。然而,Shojaee et al.的研究也暴露出了一些方法论上的缺陷,例如,对输出token数量的限制,以及一些任务本身的不可解性,这些因素都可能导致对LLM推理能力的错误评估。

来自Opus & Lawsen的反驳:实验设计的偏差

Opus & Lawsen(2025)针对Shojaee et al.的研究提出了反驳,认为其所发现的“幻觉”本身可能就是实验设计的产物。他们指出了三个关键问题:

  • Token限制耗尽:例如在“汉诺塔”游戏中,所需步骤随着问题规模呈指数级增长。对于较大规模的实例,所需的解决方案(列出每个移动步骤)超出了模型的最大输出长度。实际上,在某些情况下,模型在其生成的文本中明确承认了其token限制。因此,报告的失败可能并不表示缺乏推理,而是实际上无法输出极长的序列,这是接口的限制而不是智力的限制。例如,一个20层的汉诺塔需要移动超过100万次,这对于LLM的输出token限制来说是一个巨大的挑战。

  • 评估粒度问题:最初的自动评分将任何偏差或截断视为完全失败,而没有考虑推理过程中的部分正确性。Opus & Lawsen认为这掩盖了模型没有取得任何进展和模型大部分正确但由于外部约束而无法完成输出答案之间的差异。更细致的评估(例如,检查中间步骤或允许高级解决方案)可以区分这些情况。如果模型完成了90%的步骤,但因为token限制而无法输出最后10%的步骤,简单地将其判定为“失败”显然是不公平的。

  • 问题实例存在缺陷:至关重要的是,Opus & Lawsen发现Shojaee et al.使用的一些拼图实例在数学上是无法解决的(例如,在其设置中,N>5的河流穿越场景)。在最初的研究中,模型仍然被评为失败,Opus & Lawsen认为这是一个“重大疏忽”。再多的推理也无法解决一个不可能的问题,因此包括这些案例会扭曲整体结果,使模型的推理看起来比实际情况更糟。

Opus & Lawsen通过调整实验方法,例如,请求抽象策略或生成函数而不是逐步枚举,证明了模型可以成功地为先前被认为是失败的难题生成正确的通用解决方案。这表明模型确实掌握了算法,而之前的“失败”更多是由于实验设计的限制。

Pro & Dantas的进一步思考:能力与表现的区分

Pro & Dantas(2025)承认了Opus & Lawsen所做的修正,但认为即使考虑到这些因素,仍然存在值得探讨的实质性问题。他们提出了一个细致的区分:推理能力 vs. 推理表现。他们认为,Shojaee et al.的错误在于混淆了两者,而Opus & Lawsen证明了推理表现受到了外部因素的阻碍。Pro & Dantas进一步认为,观察到的推理表现“崩溃”并不是缺乏推理能力的证据,而是当前模型约束下持续执行推理步骤时的崩溃。

他们指出,大型语言模型通常知道该怎么做(当允许解释或给出提示时,表现出对问题的理解),但在需要遵循极长的依赖步骤序列时会犹豫。他们将此比作人类解决问题:一个人类国际象棋棋手可能知道如何赢得比赛(战略能力),但如果被迫在严重的时间压力下计算每个变体(性能约束),仍然可能失败。通过这个类比,LLM可能在内部拥有解决复杂难题的逻辑,但需要在固定的上下文窗口中明确枚举每个步骤的要求可能导致错误,而这些错误并不能真正反映其潜在的推理能力。例如,在解决一个复杂的数学问题时,LLM可能知道解决问题的公式和步骤,但由于上下文窗口的限制,它可能无法完整地执行整个计算过程,最终导致错误的答案。

Pro & Dantas的评论因此将最初的思维幻觉重新定义为可能是失败的幻觉。他们认为,通过改进的架构或推理程序(例如,可以外包计算、使用记忆迭代或验证步骤的模型),相同的AI可能会在当前无法完成的任务上取得成功,这意味着“崩溃”不是基本的认知缺陷,而是偶然的限制。

更深入的质疑:推理的定义与有效性

随后的评论,例如Cisneros & Trump(2025),对Pro & Dantas的区分提出了质疑。他们认为,推理只有在上下文中才有意义:无法执行以在实践中得出正确结论的推理过程,在功能上是失败的推理过程。换句话说,无法执行计划与一开始没有计划一样,都是推理的失败。这种观点重新强调了更具体、以结果为导向的推理成功的定义。Cisneros et al.还研究了模型在可以跳过或总结步骤的情况下行为。他们观察到,即使经过调整提示(例如,要求提供策略),模型通常会在更高复杂性的情况下调整其方法——有时会在序列变得太长时放弃严格的逐步逻辑,而倾向于快捷方式或启发式方法。例如,他们可能会为拼图的3或4个步骤提供正确的提纲,但当完全审议将呈指数级困难时,跳到对第5步的推测性结论。这种模式表明,除了token限制之外,模型还可能在内部修剪或截断自己的“思维”,当他们感觉到一项任务难以处理时,会导致真正的推理错误或遗漏。这一发现强化了当前模型存在可扩展性弱点的观点:不仅是输出限制问题,而且是在复杂序列上保持精确、逐步保真度的固有脆弱性。

此外,出现了更广泛的元分析。Tanksale(2025)和其他人在更幽默但有见地的文章中指出,这场辩论本身正变得递归,并且可能突出了定义智能的难度。例如,Tanksale的“幻觉嵌套”文章表明,这场辩论中的每一方都“正确”地看待了对方的幻觉,但没有一方明确证明了AI中的真实推理。这意味着我们可能正在处理一个移动的目标:一旦剥离掉一个伪像,就会出现一个新的限制,而这反过来又被认为是伪像或真正的缺陷。从理论上讲,幻觉链可以无限期地继续下去——这是心灵哲学和AI评估中的一个经典的无限倒退问题。

讨论:关键洞察与遗留问题

通过剖析大量的论文和他们的论点,我们可以提炼出一些关键的见解和遗留问题:

  • 评估设计至关重要:最初的交流强调了评估选择对结论的影响程度。设计不佳的任务(无法解决的问题)和僵化的答案格式可能会产生假阴性——表面上的失败并不能真正反映模型的能力。展望未来,研究人员必须设计基准,通过控制表面上的失败模式来将小麦与谷壳分开。例如,允许高级解决方案或多步骤交互式查询可以为模型的推理过程提供更清晰的窗口。社区已经在朝着这个方向发展,基准评估推理痕迹质量而不仅仅是最终答案。

  • 内在限制与外部约束:即使考虑到明显的伪像之后,也有证据表明当前的模型在持续推理方面存在内在限制。分歧在于如何描述这些限制。一种观点是,他们缺乏一些基本的认知机制(例如,自我反思或将问题分解为可管理的部分的能力)——真正的推理差距。另一种观点是,这些限制主要归因于当前的模型架构(固定上下文长度,没有持久内存),因此是工程约束。在实践中,两种观点都可以是有效的:今天的模型可能需要架构增强才能克服那些认知差距。对于研究人员来说,可行的路径是将持续推理视为一种需要通过诸如循环审议、外部内存缓冲区或混合神经符号系统等创新来改进的能力,而不是假设更大的模型或更多训练数据本身将解决根本缺陷。

  • “推理”的语义:这一系列论文暴露了在AI中构成成功推理的标准缺乏共识。模型在内部知道正确的解决方案(能力)就足够了吗,还是必须完全产生解决方案(表现)?在AI系统评估中,务实的立场是必须观察到解决方案。但是,理解可能存在潜在的知识仍然有用——它表明了在哪里集中精力(例如,弥合知识和表达之间的差距)。未来的研究可以包括诊断测试,以探究模型的潜在知识,而无需完全执行,从而更清晰地将知识失败与表达失败分开。

  • 递归评论和收益递减:从幻觉¹到幻觉⁵的进展具有启发性,但也证明了无限元分析的危险。每个评论都增加了价值(指出缺陷,完善概念),但没有一个明确地“解决”LLM推理能力的核心问题。这表明我们可能已经在纯粹评论中达到了收益递减的点。对于该领域来说,谨慎的做法是重新转向实证研究,并吸取所获得的见解。换句话说,对话应该为具体的实验提供信息:例如,实施建议的评估改进和架构更改,然后测量“思维幻觉”是否消退。

结论:超越幻觉,构建真正的推理能力

经过五次迭代的“思维幻觉”分析,我们对我们的AI系统和我们的评估方法有了更细致的了解。Shojaee et al.最初声称大型语言模型在复杂的推理任务上彻底失败,这一说法部分得到验证,部分受到后续工作的质疑。是的,模型遇到了困难——但并非完全出于最初假设的原因。一些失败确实是由于模型的推理限制,而另一些失败则是由于我们提问的方式人为造成的。

本文认为,最终的幻觉可能是希望任何一篇论文(包括本文)都能对AI的推理能力提供最终的结论。相反,我们所拥有的是一张不断变化的图片:当前的LLM表现出令人印象深刻的推理闪光和脆弱行为的混合,并且随着我们迭代地批评我们的方法,我们对这些结果的解释也在改进。为了真正取得进展,该领域现在必须实施所吸取的教训:

  • 开发稳健的基准,公平地测试推理,而不会将其与无关因素(如输出长度)混淆。
  • 增强模型在长期推理方面的能力(通过更好的内存、计划算法或混合系统),从而减少执行失败的发生。
  • 采用更具迭代性的评估方法,可以交互式地检查模型,从而使研究人员能够查明失败是源于无知、困惑还是实际限制。

通过在这些方面解决问题,我们可以超越识别幻觉,走向消除它们。通过这样做,重点从证明谁在先前的辩论中“正确”转变为协作构建真正展示可靠推理的AI系统。

总之,幻觉^n系列论文是健康科学讨论的案例研究:声明和反声明、严肃和讽刺,都有助于更深入的理解。它提醒我们,在AI——一个仍在探索如何最好地评估其创造物的领域——批判性的自我检查与原始创新一样重要。然而,它也提醒我们不要陷入反思的循环。AI推理方面的下一个突破很可能来自工程师和科学家们采纳这些见解并撰写新的篇章,而不仅仅是这场递归传奇的后记。

核心关键词总结:

  • 推理能力 (Reasoning Ability): 大模型进行复杂问题求解的关键能力,也是本文讨论的中心。
  • 思维幻觉 (Illusion of Thinking): 指的是大模型在特定情况下表现出的看似智能,但实际上并非真正理解的现象。
  • 元分析 (Meta-Analysis): 对已有研究进行分析和总结,以更全面地理解问题。
  • 推理表现 (Reasoning Performance): 模型在实际任务中表现出的推理能力,可能受到外部因素影响。
  • 推理能力 (Reasoning Competence): 模型内在具备的推理能力,即使在特定环境下无法完全发挥。
  • 幻觉 (Illusion): 在本文中,既指大模型表现出的虚假推理能力,也指实验设计和评估方法产生的偏差。