近年来,大模型(Large Language Models, LLMs)在自然语言处理领域取得了显著进展,其推理能力更是备受关注。然而,苹果公司最近的一项研究“思考的幻觉”(The Illusion of Thinking) (Shojaee et al. 2025) 提出,大型推理模型(Large Reasoning Models, LRMs)的推理性能在问题复杂度超过一定阈值后会发生根本性的崩溃。本文旨在对这项研究的核心论点进行分析和挑战,并参考响应论文“思考的幻觉的幻觉”(The Illusion of the Illusion of Thinking) (Opus & Lawsen 2025) 中提出的证据,探讨LRMs推理能力的真实水平。我们认为,苹果研究报告中的“崩溃”现象可能并非真实反映了推理的失败,而是评估方法本身造成的假象。通过剖析评估方法中存在的关键缺陷,例如误解输出截断、包含无法解决的难题、过度依赖解决方案长度以及忽视替代解决方案格式等问题,我们将论证,在修正这些问题后,LRMs完全有能力处理高复杂度的推理问题,并且不会出现所谓的根本性崩溃。
输出截断与推理失败的误判
苹果公司的研究中,一个关键的错误在于将输出截断(由于Token限制)误判为推理失败。 大模型在生成答案时,往往受到 Token数量的限制。当模型在达到Token上限时停止输出,即使它已经产生了部分正确的推理过程,也会被判定为失败。
举例来说,假设需要LRM解决一个需要多个步骤才能完成的复杂数学题。模型可能已经完成了前几个步骤的计算,但在输出最终答案之前,由于Token限制而被迫停止。在这种情况下,苹果的研究可能会将其判定为“推理失败”,而实际上模型已经具备了解决问题的部分能力。
要证明这一点,我们可以设计一个实验,逐步放宽 Token 限制,并观察模型是否能随着Token数量的增加而给出更完整、更准确的答案。如果模型在Token数量充足的情况下能够成功解决问题,那么就可以有力地反驳苹果研究中关于推理崩溃的论点。此外,还可以采用类似于“逐步提示”(Step-by-Step Prompting)的技术,将复杂问题分解为多个更小的子问题,引导模型逐步生成答案,并减少单次输出所需的 Token 数量。
不可解难题的影响
苹果的研究的另一个关键问题是,它包含了不可解的难题。在评估LRMs的推理能力时,如果测试集中包含了模型无法解决的问题,就会导致对模型能力的低估。
设想一个场景:研究人员向LRM提出一个逻辑推理题,该题目本身存在逻辑漏洞,或者缺少必要的信息,因此无论如何都无法得出正确的结论。如果LRM无法给出“正确”答案,苹果的研究可能会认为这是LRM推理能力不足的表现。
为了解决这个问题,评估数据集必须经过严格的审核和验证,确保所有题目都是逻辑自洽、信息完备且存在唯一解的。 此外,应该允许模型在无法解决问题时给出“无法解答”或“问题存在矛盾”等回应。如果模型能够正确地识别出不可解的问题,那么这恰恰说明了模型具备一定的批判性思维能力,而非推理能力的缺失。
以解决方案长度衡量复杂度
苹果的研究还过度依赖解决方案长度作为问题复杂度的指标。 解决方案的长度并不总是与问题的难度成正比。有些复杂的问题可能只需要简洁的答案,而另一些简单的问题则可能需要冗长的解释。
例如,一个需要进行复杂计算的数学问题,其答案可能只是一个简单的数字,而一个需要详细解释原因的简单逻辑题,则可能需要很长的篇幅。如果只根据答案的长度来判断问题的难度,就会导致对模型推理能力的误判。
更合理的做法是,综合考虑多个因素来评估问题的复杂度,例如:解决问题所需的步骤数量、涉及到的知识领域数量、逻辑推理的深度等等。此外,还可以采用专家评估的方式,让领域专家对题目的难度进行打分,从而得到更客观、更准确的复杂度指标。
忽略替代解决方案格式
苹果的研究忽略了替代解决方案格式。LRMs具备生成多种不同格式答案的能力。如果研究只接受特定格式的答案,就会导致对模型能力的低估。
例如,在解决一个几何问题时,模型既可以用文字描述解决方案,也可以用图形来表示解决方案。如果研究只接受文字描述,而忽略了图形解法,那么就会错过模型正确解决问题的信息。
为了避免这种情况,评估过程应该更加灵活,允许模型以多种不同的格式来呈现答案。同时,评估人员需要具备专业的知识,能够理解和评估不同格式的答案,确保模型的能力得到充分的展示。此外,还可以引入自动评估技术,例如使用计算机视觉算法来识别图形答案中的关键信息,从而提高评估的效率和准确性。
案例分析与数据支持
为了更深入地理解上述问题,我们参考“思考的幻觉的幻觉” (Opus & Lawsen 2025) 中的一些案例和数据。该论文指出,在排除了不可解的问题,放宽Token限制,并允许模型以多种格式呈现答案后,LRMs在解决高复杂度问题时的表现显著提升。
具体来说,该论文展示了一个涉及复杂逻辑推理的案例,原先苹果的研究认为LRM无法解决该问题,但在允许模型逐步推理,并给出更长的答案后,模型成功地找到了正确答案。此外,该论文还提供了一些统计数据,表明在修正了评估方法后,LRMs在不同复杂度问题上的准确率都得到了显著提升。
这些案例和数据有力地反驳了苹果研究中关于LRM推理能力崩溃的论点,证明LRMs在具备足够资源和适当引导的情况下,完全有能力处理高复杂度的推理问题。
对推理基准测试的启示
苹果的研究虽然存在一些方法论上的缺陷,但它也为我们设计更公平、更具信息量的推理基准测试提供了重要的启示。
首先,在设计评估数据集时,需要确保所有题目都是逻辑自洽、信息完备且存在唯一解的。其次,应该允许模型以多种不同的格式来呈现答案,并采用灵活的评估方法,充分展示模型的能力。第三,应该综合考虑多个因素来评估问题的复杂度,避免过度依赖解决方案长度等单一指标。最后,应该与领域专家合作,对评估数据集进行严格的审核和验证,确保评估结果的客观性和准确性。
通过改进评估方法,我们可以更准确地了解LRMs的推理能力,并为未来的研究提供更可靠的基础。这将有助于我们更好地利用LRMs解决实际问题,推动人工智能技术的进一步发展。
结论
综上所述,苹果公司关于LRMs推理能力崩溃的研究“思考的幻觉”可能存在一些方法论上的缺陷。 输出截断、不可解难题、过度依赖解决方案长度以及忽略替代解决方案格式等问题,都可能导致对模型能力的低估。通过修正这些问题,我们可以发现LRMs在处理高复杂度推理问题时,展现出强大的能力。因此,在评估人工智能推理模型时,精心设计的评估方法至关重要。只有采用更公平、更具信息量的评估基准测试,才能真正理解AI推理模型的真实能力,并推动人工智能技术的进步。 未来,对大模型推理能力的评估需要更加全面和精细,避免被评估方法本身的“幻觉”所迷惑。