大语言模型“推理幻觉”的幻觉：一次对实验设计的反思

近期，一篇名为“推理幻觉”的论文（Shojaee et al., 2025）指出，大语言模型 (Large Reasoning Models, LRMs) 在解决复杂度超过一定阈值的规划谜题时，会出现“准确性崩溃”现象。然而，通过细致分析，我们发现这些结论主要源于实验设计的局限性，而非大语言模型本身存在根本性的推理缺陷。本文将围绕这一核心观点，深入探讨实验设计的关键问题，并提出改进建议，以更准确地评估AI的推理能力。

实验设计的局限性：Token限制与评估框架

Shojaee et al. 的研究使用了汉诺塔和过河谜题等经典规划问题来测试大语言模型的推理能力。然而，他们并未充分考虑到大语言模型的固有局限性，即输出token数量的限制。在汉诺塔实验中，当问题复杂度增加时，所需的步骤也随之增加，导致模型需要输出大量的token。实验结果显示，模型在报告失败的点上，实际上已经超过了输出token的限制，并且模型本身也在输出中明确表示了这一约束。

举例来说，假设一个大语言模型的token输出限制是2000个。对于一个需要超过2000步才能解决的汉诺塔问题，模型即使具备解决问题的推理能力，也无法完整输出解决方案，从而被错误地判定为“准确性崩溃”。这就像给一个马拉松运动员只提供足够跑20公里的水，然后指责他无法完成比赛一样。

更严重的是，作者的自动评估框架未能区分真正的推理失败和这种实际约束。评估框架简单地将无法完整输出解决方案的情况判定为“失败”，而忽略了模型可能已经找到了正确的推理路径，只是由于token限制而无法完整呈现。这种评估方式无疑低估了模型的实际能力。

无法解决的谜题：数学上的不可能

研究中另一个更令人担忧的问题在于，过河谜题的设置存在缺陷。对于人数N≥6的情况，由于船的容量不足，某些测试用例在数学上根本是无法解决的。然而，大语言模型因为无法解决这些不可能的问题而被判定为失败。

想象一下，要求一个数学家证明一个错误的定理，并因为他无法证明而认为他缺乏基本的数学推理能力。这显然是不合理的。同样，如果一个谜题本身就无法解决，那么无论大语言模型的推理能力多么强大，也不可能找到解决方案。

这种实验设计上的疏忽不仅误导了对大语言模型能力的评估，也暴露了在进行AI推理能力评估时，对问题本身的严谨性要求。一个有效的评估体系必须首先确保测试用例是可解的，并且能够真实反映模型的能力。

控制实验变量：生成函数而非穷举

为了解决上述实验设计的局限性，我们需要更加精细地控制实验变量。一种有效的策略是，要求大语言模型生成函数而不是穷举所有步骤。

例如，在汉诺塔问题中，我们可以不要求模型输出完整的移动步骤序列，而是要求其生成一个描述如何解决汉诺塔问题的函数，这个函数能够接受当前的状态作为输入，并返回下一步的移动方案。

通过这种方式，我们可以有效地绕过token数量的限制，因为生成函数通常比生成完整的步骤序列需要更少的token。更重要的是，这种方法可以更好地评估大语言模型的算法理解能力，而不仅仅是其记忆和输出能力。

初步实验表明，在控制了这些实验伪像后，多个大语言模型在之前被报告为完全失败的汉诺塔实例上表现出了很高的准确性。这进一步印证了我们的观点：之前的实验结果很大程度上反映了实验设计的局限性，而非大语言模型本身存在根本性的推理缺陷。

工程价值：洞察模型局限性

尽管Shojaee et al. 的研究可能在评估大语言模型的根本推理能力上存在不足，但他们的工作仍然具有重要的工程价值。他们的结果清楚地表明，大语言模型无法输出超过其上下文限制的token，程序化评估可能会错过模型的潜在能力和谜题本身存在的逻辑漏洞，并且解决方案的长度并不能很好地预测问题的难度。

这些都是宝贵的工程洞察，可以帮助我们在设计和使用大语言模型时，更好地理解其局限性，并采取相应的措施来规避这些问题。例如，我们可以通过优化模型的架构和训练方法来提高其输出效率，从而在相同的token限制下输出更多的信息。我们也可以开发更智能的评估框架，能够识别模型输出中的潜在错误，并提供更准确的评估结果。

未来方向：区分能力与约束

未来的研究应该着重于设计能够区分推理能力和输出约束的评估方法。这需要我们更加深入地理解大语言模型的内部机制，并开发出能够更准确地衡量其推理能力的指标。

以下是一些可能的未来研究方向：

设计评估，区分推理能力和输出约束： 如前所述，可以要求模型生成函数而不是穷举所有步骤。此外，可以使用更抽象的表示方法，例如逻辑表达式或形式化语言，来描述问题的解决方案，从而减少所需的token数量。
验证谜题的可解性： 在评估模型性能之前，必须确保测试用例是可解的。这可以通过使用形式化的方法来证明谜题的可解性，或者通过人工验证来确认谜题的难度和复杂性。
使用反映计算难度的复杂性指标： 解决方案的长度可能并不是衡量问题难度的最佳指标。应该使用更能够反映计算复杂性的指标，例如解决问题所需的搜索空间的大小，或者解决问题所需的计算资源的数量。
考虑多种解决方案表示： 为了将算法理解与执行分离，应该考虑使用多种解决方案表示。例如，可以要求模型生成自然语言描述，形式化描述，或者可执行代码，来描述问题的解决方案。

结论：关注评估方法，而非断言能力缺失

大语言模型是否具备真正的推理能力仍然是一个备受争议的问题。然而，Shojaee et al. 的研究并不能支持关于大语言模型存在根本推理限制的结论。他们的研究更多地揭示了我们在评估大语言模型的推理能力时，所面临的挑战和需要注意的问题。

更重要的是，我们需要反思我们的评估方法。我们是否能够区分模型的推理能力和其输出能力？我们是否能够识别实验设计中的潜在偏见？我们是否能够使用更准确的指标来衡量问题的难度？

与其断言大语言模型缺乏推理能力，不如将精力集中在改进我们的评估方法上。只有当我们能够更准确地评估大语言模型的推理能力时，我们才能真正了解其局限性，并开发出更强大、更可靠的AI系统。问题不在于 大语言模型 是否能推理，而在于我们的评估方法是否能区分推理和 “打字”（即，单纯的输出）。

大语言模型“推理幻觉”的幻觉：一次对实验设计的反思