近期,苹果公司发布了一篇名为《思考的幻觉:通过问题复杂性理解推理模型的优势和局限性》的论文,引发了关于大语言推理模型 (LRM) 的广泛讨论。文章揭示了 LRM 在处理复杂问题时存在的一些局限性,但以此全面否定 LRM 的价值,甚至嘲笑其“智能”,则未免有些言过其实。本文旨在辩护大语言推理模型,认为我们应该理性看待其发展,而非一味否定。
核心问题:复杂性困境
苹果的论文指出了 LRM 的三大问题:难以解决复杂问题、过度思考简单问题以及无法可靠地遵循明确的算法。其中,最核心的问题是复杂性。随着任务难度的增加,尤其是在解决符号任务(如拼图)时,LRM 的性能会急剧下降。
举例来说,一个简单的算术题“2 + 2 =?”LRM 可以轻松给出答案。但是,如果问题变成一个复杂的数学证明,需要多个步骤的推理和逻辑运算,LRM 就很可能出现错误。这并非 LRM 的固有缺陷,而是因为其训练数据和模型结构在处理高度复杂的任务时存在局限性。 想象一下,让一个背诵了大量法律条文的律师去处理一个前所未有的复杂案件,他也需要查阅资料、咨询专家,甚至可能做出错误的判断。 LRM 也是如此,它需要更多的训练数据和更强大的模型结构来应对日益增长的复杂性。
过度思考:并非一无是处
LRM 在处理简单任务时的“过度思考”也是一个值得关注的问题。它们不是直接给出答案,而是生成冗长的推理路径,这可能会导致它们偏离正确的方向。 例如,让 LRM 回答“今天天气怎么样?”它可能会先查找地理位置信息,然后查询天气预报网站,再进行数据分析,最后才给出答案。 这种“过度思考”看似低效,但从另一个角度来看,它也体现了 LRM 的推理能力。 LRM 试图通过模仿人类的思考方式来解决问题,即使在简单任务中也是如此。 这种推理能力在处理更复杂的任务时可能会发挥重要作用。未来的发展方向,是引导模型选择合适的推理策略,在保证准确率的同时,提升效率。
算法遵循:有待提升的能力
LRM 无法可靠地遵循明确的算法,这确实是一个需要改进的方面。即使给定正确的步骤(例如解决汉诺塔难题),它们也难以稳定地应用这些步骤。
以汉诺塔难题为例,LRM 可能可以理解游戏的规则,甚至可以模拟一些步骤,但它很难保证每一步都正确,最终完成整个游戏。 这说明 LRM 在符号操作和逻辑推理方面仍然存在不足。 然而,这并不意味着 LRM 无法学习算法。 通过更多的训练数据和更精细的模型设计,我们可以提高 LRM 遵循算法的能力。 事实上,已经有研究表明,通过使用特定的训练技巧,可以显著提高 LRM 在解决算法问题方面的表现。
理性看待:LRM 的真实定位
许多评论员将苹果的论文视为“弹药”,以此嘲笑 LRM 的整个概念,嘲笑那些称其为智能的人,并声称这些模型无法真正“思考”。 这种观点过于片面。
LRM 从未承诺过具有真正的智能。它们承诺的是更系统的方法,可以生成结构化的思维链,在某些情况下,可以帮助更好地解决问题。 它们不是规划代理,而是具有生成更长、更连贯的推理模式能力的下一个令牌预测器。
诚然,LRM 在压力下会崩溃,在符号操作方面会失败,“过度思考”也是真实存在的。但认为这篇论文揭露了“欺诈”则有些夸大其词。 它真正表明的是,LRM 并不总是比 LLM“更聪明”,并且它们的性能会超过一定的复杂性阈值而崩溃。 这与说它们曾经是 AGI,或者说它们让我们失望,相去甚远。
复杂性阈值:能力边界的探索
苹果公司的研究其实揭示了一个重要的事实:LRM 存在一个复杂性阈值。当问题难度超过这个阈值时,LRM 的性能会急剧下降。
这个复杂性阈值并非固定不变的。通过改进模型结构、增加训练数据和优化训练方法,我们可以不断提高 LRM 的复杂性阈值,使其能够处理更复杂的任务。 事实上,我们已经看到了这方面的进展。例如,一些最新的 LRM 模型已经能够解决一些过去被认为无法解决的复杂问题,例如复杂的数学证明和逻辑推理难题。
类比思考:人与机器的共性
让我们诚实一点——有多少人可以解决有 10 个盘子的汉诺塔问题? 你尝试过吗? 如果你没有,这是否意味着你不够聪明? 当然不是。 这只是意味着这个问题太难了。 LRM 也是如此。
我并不是说这些系统是智能的。它们不是,但仅仅因为它们无法胜任真正复杂的任务就概括它们的推理能力,似乎有些牵强。 这种类比有助于我们理解 LRM 的局限性。 LRM 就像一个拥有丰富知识的专家,但在面对超出其专业领域的问题时,也需要借助工具和辅助手段。 重要的是要了解 LRM 的优势和劣势,并将其应用到合适的场景中。
营销炒作:回归理性务实
这篇论文是对现实的检验,而不是一次彻底的否定。 这是当今的技术水平,任何关于 Agentic AI 可以自主运行的营销主张,都只是营销主张而已……
和往常一样,竞技场中的人群决定什么才是进步——而他们却竖起了大拇指向下的手势。
但正如我之前写的那样,这种模式并不新鲜: 特斯勒定理“人工智能是尚未完成的事情。” “每当我们弄清楚人工智能的一部分时,它就不再神奇了;我们说,‘哦,那只是一次计算。’”——Rodney Brooks
这并不意味着它不是进步。 这只是意味着魔法又转移了。 现在的营销宣传过于强调 LRM 的能力,甚至将其描绘成无所不能的“通用人工智能”。 这种炒作掩盖了 LRM 存在的局限性,也误导了公众的期望。 我们需要回归理性务实,认清 LRM 的真实能力,并将其应用到合适的领域。
辩护:进步的必然
总之,尽管苹果公司的论文揭示了 LRM 的一些局限性,但这并不意味着 LRM 毫无价值。 LRM 在处理复杂问题时存在困难、过度思考简单问题以及无法可靠地遵循算法,这些都是需要在未来改进的方面。
但是,我们不能因此否定 LRM 的潜力,更不能嘲笑其“智能”。 LRM 是一种正在发展的技术,它在解决复杂问题、模拟人类思考方式和生成连贯的推理模式方面具有巨大的潜力。 我们应该理性看待 LRM 的发展,积极探索其应用场景,并不断改进其性能。
大语言推理模型是人工智能发展道路上的一块重要基石,虽然它们并非完美,但它们代表着进步的方向。我们不应因其暂时的局限性而否定其价值,而应鼓励科学家和工程师继续努力,克服复杂性难题,解锁 LRM 的全部潜力。 只有这样,我们才能真正实现人工智能的梦想,创造一个更加智能、更加美好的未来。对大语言推理模型的辩护,也是对技术进步的辩护,对未来无限可能的辩护。