最近,我们不断听到关于AI已经学会思考的说法。OpenAI的o1系列、DeepSeek的R1、Claude的思考模型——这些所谓的“大模型推理”带着万众瞩目而来,承诺在机器解决复杂问题的方式上取得突破性进展。它们声称不同于仅仅通过模式匹配来完成任务的前辈,而是进行“真正的”推理,并伴随着类似于人类思考的内部独白。它们暂停、审议、重新考虑,并通过看起来非常像实际思考的过程得出答案。然而,一项来自Apple的研究表明,当AI推理遇到真正的复杂性时,它们会放弃思考,这无疑给蓬勃发展的人工智能领域泼了一盆冷水。
1. 推理能力与自主AI系统
对于我们这些构建自主AI系统的人来说,推理能力代表着真正自主性的基石。在Craine,我们将推理定位为遵循脚本的简单自动化和能够适应、制定策略和协调复杂操作的真正AI智能体之间的关键区别。例如,当我们谈论自主基础设施时,我们从根本上依赖于这些系统推理新情况、权衡相互竞争的优先级并在压力下做出合理决策的能力。正是推理革命承诺提供这些能力——AI系统可以像熟练的人工操作员一样思考问题,但速度更快、一致性更高。这一承诺支撑了自主智能体管理一切(从云基础设施到业务运营)而无需持续人工监督的整个愿景。举例来说,设想一个智能的云资源管理器,它不仅能根据预设规则扩展服务器,还能在面对DDoS攻击时,推理出攻击模式,并自动调整防火墙策略,甚至迁移关键服务到更安全的基础设施,这背后依靠的正是强大的推理能力。
2. “思考”的幻觉:Apple 研究的挑战
但关于革命性主张的关键在于:它们需要革命性的证据。Apple的研究团队进行了一项新的研究——“思考的幻觉”,该研究恰恰提供了这样的证据,但结果却出乎意料。研究人员没有像通常那样使用数学基准,而是使用精心控制的谜题环境,系统地测试了这些推理模型是否真的在推理——或者它们只是非常复杂的模仿者。他们的发现挑战了我们对推理革命的所有认知。这些模型不仅仅在问题变得更难时遇到性能瓶颈;它们还做了一些更奇怪、更令人不安的事情:它们完全放弃了思考,在应该尽最大努力的时候反而减少了推理工作。这就像观看一名马拉松运动员在接近比赛最陡峭的山坡时放弃并步行一样令人惋惜。
3. 为何谜题胜过数学测试:可控的实验环境
与其向这些模型投入更多的MATH-500问题(这些基准可能被训练数据污染),Apple的研究人员构建了一些更好的东西:可控的谜题环境。这就像测试汽车性能,不是在无法控制交通的公共道路上,而是在可以精确调整每个变量的封闭测试跑道上。研究人员需要干净的实验条件,他们可以像调节音量旋钮一样调高和调低复杂性,同时保持底层逻辑一致。他们使用了四个看似简单的谜题:汉诺塔、跳棋、河流穿越和积木世界。每个谜题都允许研究人员通过调整单个参数来控制复杂性:更多的磁盘、更多的棋子、更多的人、更多的积木。至关重要的是,这些谜题都带有内置的模拟器,可以验证不仅是最终答案,还有过程中的每一步。与数学问题要么正确要么错误不同,这些环境允许研究人员窥视推理过程本身,观察模型在何处以及如何绊倒。这基本上就像给期末考试打分和坐在学生旁边看着他们完成测试中的每个问题之间的区别。 想象一下,测试一个自动驾驶系统,不是简单地测试它是否能识别红绿灯,而是测试它在复杂的交通场景中,面对突发状况,例如行人突然横穿马路,或者车辆违章变道时,是否能迅速推理出最佳的应对方案。这种可控的测试环境,能更有效地评估AI的真实推理能力。
4. 令人惊讶的性能分布:三种性能状态
Apple的研究人员还发现了其他没有人预料到的事情:推理模型不会随着问题变得更难而逐渐变差。相反,研究人员确定了三种不同的性能状态,这些状态颠覆了传统认知。在低复杂性级别(你期望任何像样的AI都能处理的那种问题)上,标准LLM实际上优于它们那些所谓的更高级的推理对应物。我们谈论的是更高的准确性和更好的效率。这就像发现福特福克斯比兰博基尼更快更便宜地把你送到杂货店。推理模型对简单的问题考虑过度,在需要直接执行的任务上浪费了大量的计算资源进行详尽的内部审议。 例如,让AI识别图像中的猫,标准的LLM可能更快更准确,而推理模型可能会过度分析猫的品种、姿势、环境等,反而降低了效率。
在中等复杂性范围内,推理模型最终证明了它们的存在价值。在这里,所有额外的思考时间都得到了回报,推理模型显示出比标准模型明显的优势。这是大多数基准和演示关注的甜蜜点——足够复杂,需要真正的解决问题,但又不会复杂到完全崩溃。这是黄金地带,推理模型看起来确实令人印象深刻,并且似乎验证了围绕其能力的炒作。
但接下来是第三种状态,而这才是真正令人不安的地方。超过某个复杂性阈值,两种模型都经历了研究人员称之为“完全崩溃”的状态——不是逐渐退化,而是完全失败。准确率降至零。这就像达到了一个事件视界,推理根本停止运作。特别令人不安的是,这种崩溃的发生与模型有多少可用的计算预算无关。它们并没有耗尽tokens或达到上下文限制;它们达到了一些更根本的东西——一种在复杂性扩展时维持连贯推理能力的障碍。一个典型的例子是,让AI规划一个包含多个步骤的复杂旅行路线,例如预订机票、酒店、交通工具,并考虑到预算、时间、偏好等因素。在中等复杂度的条件下,推理模型可能表现良好,但当行程更加复杂,例如需要处理签证、特殊活动、突发状况时,它们可能会完全崩溃。
5. 反直觉的崩溃:难题越难,思考越少
随着谜题复杂性的增加,推理模型不仅表现更差;它们实际上减少了它们的思考工作。尽管有充足的token预算和可用的计算资源,但这些模型开始产生更短的推理痕迹,而问题恰恰需要更仔细的审议。这在认知上相当于外科医生在复杂手术进行到一半时放下手术刀,因为事情变得太复杂了。研究人员在多个前沿模型(o3-mini、DeepSeek-R1、Claude-3.7-Sonnet with thinking)中跟踪了这种“缩放限制”,并发现该模式始终如一。模型最初会随着问题变得更加复杂而增加它们的推理工作,遵循你期望的直观模式。但是,接近研究人员确定的每个模型的关键复杂性阈值时,发生了一些奇怪的事情:即使问题在客观上变得更难,推理工作也开始下降。这些模型没有达到技术限制——它们在远低于其生成长度限制的情况下运行,并且有大量的推理预算剩余。
就像我之前讨论过的对齐欺骗一样,这种反直觉的行为引发了对自主系统信任的深刻问题。如果我们最先进的推理模型在面对真正的复杂性时系统地减少努力,那么当我们将其部署在现实世界场景中时会发生什么?在关键任务应用中——无论是管理云基础设施、协调应急响应还是做出财务决策——我们需要在事情变得艰难时能够依靠的系统,而不是在它们的推理能力最重要时悄悄放弃的系统。这些影响远远超出了学术基准,延伸到我们越来越依赖的AI系统的根本可靠性。 假设一个AI驱动的医疗诊断系统,在面对常见疾病时能快速准确地给出诊断建议,但当遇到罕见病或者复杂病例时,它不仅无法给出正确的诊断,反而减少了分析的步骤,这将会导致严重的医疗事故。
6. 深入剖析:“思考”内部发生了什么
Apple的研究人员做了一件大多数AI评估完全跳过的事情——他们打开了黑盒子,检查了这些模型推理过程中实际发生的事情。通过分析模型在“思考”时生成的中间解决方案,他们揭示了我们刚才讨论的那些性能模式背后的机制。在简单问题中过度思考的行为?事实证明,模型通常会尽早识别正确的解决方案,但随后会继续探索错误的路径,从而浪费它们剩余的计算预算进行无用的审议。同时,对于模型经历完全崩溃的复杂问题,推理痕迹显示出更令人不安的事情——它们在整个思考过程中根本无法生成任何正确的解决方案。
研究人员进行了一项实验,对于推理模型来说,这应该是一件轻而易举的事情:他们提供了解决汉诺塔谜题的完整、逐步算法。可以想象成烹饪书式的说明,模型只需要按照食谱操作,而无需发明新菜。尽管如此,这些模型仍然在与它们从头开始解决问题时相同的复杂性阈值上失败了。这种限制比创造力或策略更深层次,指向了更根本的东西。即使解决问题的艰苦工作已经为它们完成,模型也无法在更长的序列中保持逻辑一致性。当按数字绘画在与抽象推理相同的地方失败时,我们看到的是架构限制而不是解决问题的约束。
7. 这对 AI 智能体意味着什么
这些发现对我来说尤其具有冲击力,特别是当你考虑到我们朝着AI智能体(自我修复、自我维持的系统,无需人工干预即可适应和响应)发展的轨迹时。在我最近关于AgentOps的论文中,我预测我们距离自主智能体在管理一切(从云基础设施到业务运营)中成为主流还有24-36个月的时间。但Apple的研究揭示了这一基础中的一个根本裂缝:如果我们最先进的推理系统在面对真正的复杂性时系统地减少努力,我们如何才能信任它们来协调将运行我们关键系统的自主智能体?
我们必须思考这对我们正在构建的智能体未来意味着什么。当你的工程智能体需要排除跨多个微服务的级联故障时,或者当你的安全智能体必须响应复杂的攻击向量时,这些不是具有明确解决方案的简单问题。它们正是Apple研究表明推理模型完全崩溃的那种高复杂性场景。当问题变得更难时,推理工作减少,当你依赖自主系统来维持正常运行时间、保护数据或协调应急响应时,这变得非常可怕。这些影响远远超出了学术基准,延伸到我们越来越信任业务关键型运营的这些自主系统的可靠性。如果为这些自主智能体提供动力的推理引擎在仔细审议最重要的时候放弃思考,那么整个AgentOps愿景将面临一个根本性的瓶颈,任何框架的复杂性都无法克服。例如,设想一个AI驱动的网络安全防御系统,它在面对简单的网络攻击时能有效防御,但当遇到零日漏洞或者APT攻击时,却因为推理能力的不足而失效,这将给企业带来巨大的安全风险。
8. 重新调整期望
Apple的研究迫使我们面对一个令人不舒服的真相:当前的推理模型不仅仅遇到性能瓶颈——它们表现出根本性的缩放限制,这表明它们处理复杂问题的方式存在问题。我们面临的不是可以工程绕过的逐渐退化,而是一个硬性上限,即随着挑战的加剧,推理工作实际上会减少。当我们最先进的AI系统在思考最重要的时候系统地放弃思考时,这不是一个软件错误或训练数据问题。我们面临的是一个架构约束,它挑战了当前设计的推理模型的整个前提。
更广泛的影响远远超出了学术谜题,延伸到我们正在关键基础设施中快速部署的自主系统的基础。如果推理模型无法在复杂场景中保持逻辑一致性——即使提供了明确的算法——这告诉我们通往真正自主AI的道路是什么?也许推理革命并不是我们认为的突破,而是一个昂贵的弯路,它正在教我们当前的方法在何处根本上崩溃。问题不是我们是否可以修复这些限制,而是我们是否建立在正确的基础上。当最先进的推理系统随着复杂性的增加而减少努力时,我们可能需要重新思考不仅是如何构建AI,还有我们期望它可靠地完成什么。目前来看,AI推理的局限性,导致其在许多关键领域的应用仍然存在风险,我们必须对此有清醒的认识。
关于作者:Jason T. Clark 是 Craine Technology Labs 的创始人,也是基础设施自动化和云计算领域拥有 20 多年经验的资深人士。在亲眼目睹了从裸机到容器化的演变后,他现在专注于智能体 AI 革命——自主智能体以最少的人工监督协同管理基础设施。他最近的作品包括“AgentOps 时代”和组织采用智能体系统的实用实施指南。Jason 认为,我们距离自主智能体成为主流还有 24-36 个月的时间,这将从根本上改变企业的运营方式。