Apple最新的研究论文“思考的幻觉”无疑给火热的大模型 (Large Reasoning Models, LRMs) 领域泼了一盆冷水。这篇论文揭示了一个令人不安的事实:当难题的复杂度提升时,即便是最先进的大模型,例如OpenAI的o3-mini、Anthropic的Claude 3.7 Sonnet-T、DeepSeek-R1以及Google的Gemini-Thinking,它们的准确率也会骤降至接近于零。更糟糕的是,这些模型似乎在难题面前选择了“放弃”,花费的推理时间token反而减少。这意味着,仅仅依赖于大模型的“思考”能力构建的 Agentic AI 系统,其可靠性远比我们想象的要脆弱。本文将深入剖析Apple的研究成果,探讨其对Agentic AI 的影响,以及如何在实际产品发布中利用这些发现来创造真正的实际价值。
大模型推理的三个阶段:性能的滑铁卢
Apple的研究团队并没有采用传统的数据点式基准测试,而是设计了一种可控的难题环境(类似于汉诺塔的变体),从而能够精确地控制难题的复杂度,并深入了解模型“思考”的轨迹,而不仅仅是最终答案。通过这种方式,他们发现了大模型推理过程中的三个明显不同的性能阶段:
-
低复杂度阶段: 在这种情况下,传统的LLM反而优于那些“推理”能力更强的模型。额外的“思考链 (Chain-of-Thought, CoT)”只会增加延迟,而不会带来任何准确性的提升。例如,一个简单的客户服务聊天机器人,只需要回答一些常见问题,普通的LLM就能胜任,引入更复杂的LRM反而会降低响应速度。
-
中等复杂度阶段: LRM的“思考链”推理在一定程度上能够帮助模型提高性能,但这种帮助是有上限的。一旦超过这个临界点,性能就会迅速下降。例如,在金融领域的风险评估场景中,如果只需要评估客户的简单收入和负债情况,LRM可以通过CoT进行更细致的分析,提高评估的准确性。
-
高复杂度阶段: 在这个阶段,无论是LLM还是LRM,性能都会直线下降。准确率、连贯性和推理轨迹的质量都会迅速恶化。例如,当需要评估涉及多个开放贷款和外汇风险敞口的复杂信用风险时,大模型的性能会迅速下降,最终给出错误的结果。
这个发现对Agentic AI的架构设计提出了严峻的挑战。
Agentic AI架构的脆弱性:模型内部“思考”的局限性
Agentic AI 架构,例如Plan->Retrieve->Act->Verify循环、LangGraph工作流和AutoGen集群,都严重依赖于LLM作为规划者和决策者。Apple的研究表明,这种依赖是极其脆弱的。一旦任务的深度超出大模型的处理能力,进入高复杂度阶段,规划者本身就会出错,导致错误的路径规划或完全停滞。
例如,想象一个用于自动化法律文件审查的 Agentic AI 系统。在处理简单的合同条款时,该系统可以高效地提取关键信息并进行初步审查。然而,当遇到涉及复杂法律概念和相互引用的条款时,大模型可能会迷失方向,导致关键信息的遗漏或错误解读,最终导致错误的法律建议。
因此,构建可靠的 Agentic AI 系统的关键在于,不能仅仅依赖于大模型的内部“思考”能力。
产品发布蓝图:构建可靠的Agentic AI系统
基于Apple的研究,我们可以制定一套构建可靠 Agentic AI 系统的蓝图:
-
明确定义复杂度的边界: 针对具体的应用场景,需要深入分析任务的复杂度,并明确定义大模型能够胜任的复杂度的上限。这需要对大模型的能力进行全面的评估和测试。
-
分层架构设计: 将任务划分为不同的层级,并为每个层级选择最合适的解决方案。例如,对于低复杂度的任务,可以直接使用LLM;对于中等复杂度的任务,可以使用LRM;而对于高复杂度的任务,则需要采用规则引擎或人工干预。
-
可靠的降级策略: 针对大模型在高复杂度阶段的失败情况,需要制定可靠的降级策略。这意味着需要预先设计好备选方案,例如切换到规则引擎、人工审核或直接拒绝服务。
-
全面的监控和告警: 需要对大模型的推理过程进行全面的监控,例如跟踪token的使用情况、准确率和推理时间。一旦发现模型的性能开始下降,就需要及时发出告警,并采取相应的措施。
-
数据驱动的优化: 通过收集用户反馈和性能数据,不断优化Agentic AI 系统的架构和参数。这需要建立一套完善的数据收集和分析系统。
实际案例:银行客户旅程中的Agentic AI
以银行的“一键提升信用卡额度”聊天机器人为例,我们可以应用上述蓝图:
-
Tier-0: 使用普通的LLM回答常见问题,例如“如何申请提升信用卡额度?”(低复杂度阶段)。
-
Tier-1: 使用LRM估算客户的可支配收入,例如通过分析客户的银行流水和消费记录。(中等复杂度阶段)。
-
Tier-2: 当计算所需的信用数学超出复杂度上限时,例如涉及多个开放贷款和外汇风险敞口时,将任务移交给规则引擎或人工坐席。(高复杂度阶段)。
通过这种分层架构,我们可以显著提高首次接触问题的解决率,同时避免因大模型的失效而违反信贷政策的风险。
成本效益分析:延迟与信任的权衡
在构建 Agentic AI 系统时,还需要考虑成本效益。额外的“思考链”会增加延迟,但客户只有在成功率提高的情况下才会容忍这种延迟。因此,需要在延迟和信任之间进行权衡。
-
Token使用量服务等级协议 (SLO): 需要为每个任务设定token使用量的SLO。在简单任务上过度消耗token会导致利润损失,而在困难任务上token崩溃则是一个预警信号。
-
可靠性作为护城河: 在监管严格的行业,可靠性至关重要。企业不会将真金白银投入到不可预测地退化的模型上。
产品和策略团队的关键要点
-
“思考”轨迹是信号,而不是保证: 需要像监控CPU指标一样监控“思考”轨迹,并将其作为性能评估的重要指标。
-
默认情况下为高复杂度阶段的失败做好准备: 需要预先设计好降级策略和清晰的升级路径。
-
价值来自于编排,而不是原始模型智商: 成功的关键在于掌握何时调用LLM、如何限制其搜索范围,以及何时将控制权交还给传统软件或人工。
结论:构建护栏优先
大模型仍然是非常强大的模式识别机器,但持久的商业价值将来自于那些了解其局限性并相应地路由工作的 Agentic AI 系统。因此,在追求大模型的“智能”之前,首先要构建可靠的护栏。