大模型理性迷雾：苹果研究揭示AI推理的局限与因果AI的未来

在人工智能（AI）技术日新月异的今天，我们正面临着一个共同的挑战：如何辨别炒作、神话与真相。特别是在大模型(LLM)的应用上，各种关于“AI Agent能够计划、推理和决策”的说法层出不穷。但我们需要警惕的是，仅仅依赖大模型构建的AI Agent并不能真正实现这些承诺。苹果公司近期发布的研究报告《思考的幻觉》(The Illusion of Thinking)再次印证了这一观点，揭示了大模型在AI推理能力上的局限性。尽管如此，人工智能的未来仍然充满希望，通过结合领域知识、因果AI模型，我们可以构建出能够模仿人类推理的AI Agent，帮助人们更好地决策、解决问题，并制定以目标为导向的计划。

大模型：统计模式识别的幻觉

当前，生成式AI和大模型凭借其生成内容、回答问题和自动化重复性任务的能力，吸引了整个科技界的目光。然而，苹果研究团队的研究揭示，这些模型表面上流畅的语言和看似智能的回答背后，并没有真正意义上的“AI推理”能力。

核心观点：

并非真正的推理： 大模型只是基于海量数据集中的模式、概率和相关性来模仿AI推理，而缺乏理解、语义知识、逻辑或因果关系。
《思考的幻觉》： 苹果的研究测试了包括GPT-4、Claude 3.7 Sonnet、Gemini Thinking和IBM Granite等在内的“AI推理增强”的大模型。
复杂性崩溃： 这些模型在处理简单的逻辑谜题时表现出色，但随着任务复杂性的增加，准确率急剧下降，甚至降至零。
“放弃效应”： 模型在问题变得更难时，其内部AI推理努力（以生成的Token数量衡量）反而减少，表明它们缺乏识别问题难度和投入更多努力的能力。

案例佐证：苹果的研究使用汉诺塔和河流穿越等逻辑难题来测试大模型的AI推理能力。虽然模型在简单版本中表现良好，但当增加步骤、依赖关系和规则时，性能急剧下降，表明它们无法解决更复杂的问题。

实际意义：

企业高管需要认识到，生成式AI听起来很智能，并不意味着它真的智能。
大模型缺乏逻辑、上下文或因果关系的理解，它们仅仅基于统计模式识别运行。
这些局限性使得大模型不足以支持可以追求目标、做出可信决策和解决问题的AI Agent。

链式思考（CoT）：高分辨率的模仿

链式思考（Chain-of-Thought，CoT）是一种鼓励大模型将其答案分解为中间步骤的技术，类似于人类解决问题的方式。虽然CoT的输出看起来有条理，甚至具有反思性，但这并非真正的AI推理，而是一种更复杂的统计模式匹配。

核心观点：

并非逻辑评估： 当大模型使用CoT时，它并没有逻辑地评估选项、权衡证据或理解后果和影响。
模式拼接： 它只是从其训练数据中提取相关性，将听起来合理的步骤拼接在一起，形成从问题到答案的路径。
高分辨率模仿： CoT是一种高分辨率的模仿，而不是高阶认知。

案例佐证：假设要求 大模型 解释如何解决一个复杂的数学问题。通过CoT，大模型 会一步一步地展示解题过程，就像一个真正的人在思考一样。然而，这种展示只是基于 大模型 在训练数据中看到的类似问题的解决方案，它并没有真正理解每个步骤背后的数学原理。

实际意义：

将CoT的输出等同于AI决策智能是危险的。
CoT提供的是追溯的上下文，而不是内省或审议。
企业必须抵制将修辞结构误认为认知实质的诱惑。

误区：容易过度信任看起来经过深思熟虑的AI输出。

AI推理之路：超越大模型，拥抱因果AI

为了弥合大模型的局限性，我们需要用专门的AI技术来补充它们，这些技术旨在理解领域特定的语义、因果关系和结构化AI推理。

核心观点：

知识图谱： 可以以支持意义、上下文和符号AI推理的方式表示真实世界的实体和关系。
因果AI模型： 能够AI推理事物如何相互影响，而不仅仅是什么倾向于接下来发生。
混合架构： Agentic AI系统需要将统计学习与知识和因果关系的显式模型相结合。

案例佐证：在医疗诊断领域，单纯依靠 大模型 可能会根据症状的统计相关性给出诊断建议，而忽略了潜在的因果关系。如果结合知识图谱和因果AI，系统可以更好地理解疾病的病理机制，从而给出更准确和可靠的诊断。

实际意义：

企业在探索使用AI Agent进行流程自动化、客户互动或决策支持时，必须认识到不能将AI推理外包给大模型。
我们需要重新评估如何衡量AI部署的成功。
流畅性、响应性和表面级别的任务完成不是真正AI推理的指标。

重要问题： AI是否理解任务背后的意图？它能否适应新信息？它能否模拟行动的后果？

因果AI：理解“为什么”的力量

尽管今天的生成式LLM +CoT技术令人惊叹，但它们仍然受到其相关性设计的限制。为了使AI能够“AI推理”，它需要理解因果AI，这解释了这些统计概率如何在具有不同情况、影响和行动的动态世界中转移。

核心观点：

概率与因果关系： 概率代表我们对稳定世界的理解，而因果AI解释了概率如何在动态世界中变化。
不仅仅是相关性： 建立连接并不意味着行为或事件直接导致了结果。
ChatGPT的观点： 因果AI是一个新兴的机器学习分支，它可以通过定量识别各种因素如何相互影响来算法地理解问题集和数据集中的因果关系。

案例佐证：考虑一个营销活动的例子。 大模型 可以识别出某些广告与销售额的增长相关，但它无法确定广告是否真正导致了销售额的增长，还是因为其他因素（例如季节性因素或竞争对手的促销活动）的影响。 因果AI 可以通过分析各种因素之间的因果关系，更准确地评估广告的效果，并为未来的营销活动提供更明智的建议。

实际意义：

因果AI使AI能够探索无数的“假设”情景，并掌握各种可能行动的后果。
它不仅可以解释做什么，还可以解释如何做以及为什么某些行动比其他行动更好。
因果AI可以逐渐集成到现有的AI系统中，包括基于大模型和生成式AI的系统。

因果AI的未来：行动胜于空谈

因果AI正在成为AI领域的一个重要趋势。Gartner的2025年AI炒作周期预测因果AI将在2-5年内成为一项“高影响力”技术。

核心观点：

高影响力技术： Gartner认为因果AI是AI的下一个发展方向。
广泛采用： Dataiku & Databricks的一项调查显示，十分之七的人将在2026年之前采用因果AI技术。
Microsoft Research的观点： 因果机器学习有望成为下一场AI革命。

具体应用：

因果发现： 识别因果关系并绘制因果结构，表示为因果知识图谱。
因果推理： 估计不同变量和干预措施的影响，同时理解答案的后果。
因果推理： 模拟各种假设情景，以帮助决策者理解潜在的结果。

未来展望：

随着更多软件公司使因果AI更容易访问，将因果关系融入今天的AI环境可能比我们想象的更简单。通过集成发现、推理和AI推理与传统的关联AI，这些平台使AI能够超越单纯的预测，提供明智的判断，从而促进更智能、更具弹性的决策。

结论：拥抱AI推理的新时代

苹果的研究报告揭示了大模型在AI推理能力上的局限性，提醒我们不能过度依赖单纯的生成式AI。然而，这并不意味着人工智能的未来一片黯淡。相反，通过结合领域知识、因果AI模型，我们可以构建出真正具有AI推理能力的AI Agent，从而解决更复杂的问题，做出更明智的决策。现在，正是开始为Agentic AI的新时代做准备的时候。建议您阅读LeewayHertz的因果AI用例和优势文章，考虑参加因果AI迷你课程，并观看因果AI播客。

大模型理性迷雾：苹果研究揭示AI推理的局限与因果AI的未来