大型语言模型 (LLM) 在文本生成和理解方面取得了显著进展,但它们真正的潜力在于推理能力。尽管LLM能进行令人印象深刻的文字游戏,但当每一步逻辑都受到代码审计时,尤其是在解决难题或分布外问题时,它们的表现往往不尽如人意。本文将深入探讨LLM的推理机制,分析其优势与局限,并展望未来的发展方向,重点在于如何将可见推理转化为可验证行动,最终提升LLM的通用智能。

推理:从可见到可验证

推理是指系统构建一个连贯、逻辑上有效的步骤序列(中间表示、决策或行动),将初始状态转化为目标状态的过程,这个过程受到形式化或学习规则集的约束。传统的AI规划器,如A算法,提供了可见可验证推理过程。A算法记录每个节点扩展、成本更新和启发式估计,使得每一步都可以被审计,而不仅仅是终点。例如,在网格环境中,A*算法使用f(n)=g(n)+h(n)评估每个候选节点,其中g(n)是从起点到n的精确成本,h(n)是从n到目标的最廉价成本的可接受估计。当h从不过高估计时,以递增的f顺序扩展节点可以保证第一个弹出的目标位于最佳路径上,从而产生一个显式的、逻辑上有效的(并且可验证的)从起点到目标的序列。

然而,对于许多高调系统来说,推理过程往往是不透明的。例如,MuZero学习其自身的紧凑潜在转换和价值函数,然后在潜在空间中完全运行蒙特卡洛树搜索;观察者只能看到所选择的动作和最终的游戏分数,无法得知每个模拟步骤是否遵循真实动态或一致逻辑。V-JEPA 2将视频帧编码为高维向量,预测该嵌入空间中的几个步骤,用学习到的价值头来对每个假设的未来进行评分,并选择得分最高的动作路径。这个前向滚动链仅作为1216-D张量的序列存在;没有外部约束迫使这些张量对应于物理上合理的场景,因此“推理”轨迹无法被审计,除非通过对照真实情况检查最终预测。即使是标准的策略梯度代理,如PPO,也保留了一个LSTM或transformer隐藏状态,该状态聚合了过去的观察、计划的子目标和价值估计;隐藏状态更新形成了引导下一步行动的隐式思考过程,但这些向量缺乏语义,因此是不透明的。事后探测通常只能恢复粗略的相关性。尽管中间步骤通过在学习到的更新规则下将当前状态转换到目标,满足推理定义,但它们是不可验证的。

与此相反,LLM的特殊之处在于它们表现出涌现能力——只有当模型足够大时才会出现的能力,这些能力在训练过程中并没有明确设计。推理就是其中之一。当被提示“一步一步思考”或类似的提示时,模型会发出一致的中间状态链(“思维链”),让观察者能够跟踪从提示到答案的轨迹。由于这些轨迹是可见的文本,研究人员可以测量、监督并将推理过程提炼到更小的模型中,从而催生了关于CoT验证、自洽性和CoT蒸馏的工作。这种可见性是关键的区别:与MuZero的潜在展开或PPO的隐藏状态不同,LLM的推理可以被发现和改进。

LLM的推理能力:机遇与挑战

LLM的推理能力既带来了机遇,也带来了挑战。一方面,通过思维链技术,我们可以观察LLM的推理过程,并对其进行改进。另一方面,LLM的推理能力也存在局限性。例如,苹果公司的研究表明,LLM在解决低复杂性问题时表现不如LRM,因为它们倾向于“过度思考”。事实上,它们倾向于产生解决问题的早期标记,并继续使用它们的标记预算进行思考,这导致它们误入歧途。LRM在中等复杂性问题上优于LLM。在这里,思考的token似乎派上了用场。用于生成中间步骤的额外标记帮助它们最终得出解决方案。LRM和LLM都在高复杂性问题上失败,LRM的性能拐点往往发生在推理步骤中的同一点附近。LRM在河内塔问题上的表现从5个盘子的90%下降到8个盘子的0%。

这些研究结果表明,LLM的推理能力仍然存在提升空间。我们需要找到一种方法,让LLM能够更好地权衡思考的深度和解决问题的效率,避免过度思考和过早放弃。

工具增强推理:未来的方向

文章作者认为,单一的思维链技术在达到一定程度后会停滞不前。推动模型能力前进的是工具增强的推理加上密集的、任务塑造的反馈。ReAct将思想与API调用交织在一起;Toolformer让模型决定何时调用外部工具;Tree-of-Thought和Think-RM增加了系统的搜索和长期的奖励建模。

为了解决LLM在推理过程中遇到的问题,作者提出了以下三种解决方案:

  • 规则检查器: 在每个想法和下一个行动之间插入一个规则检查器。每当候选步骤未能通过确定性验证器(符号规划器、类型检查器,甚至是单元测试工具)时,模型就会被迫后退并重试。PSALM遵循完全相同的模式:LLM提出一个动作,规划器验证它,并且任何非法的动作都会被删除,直到只剩下可证明正确的计划。
  • 代币预算调度: 将代币预算调度与“用或不用”奖励配对:代理因应用额外的代币来在更困难的实例上取得可衡量的进展而获得积分,并因过早放弃而受到惩罚。TALE朝着这个方向迈出了一步,通过按难度比例分配代币,但下一步是训练模型识别额外的预算作为它应该花费的资源。通过奖励塑造,有利于困难任务上更长、更具建设性的轨迹——并且仍然减少简单任务上的冗长——我们可以让模型保持参与,而不会鼓励漫无边际。
  • 逐步奖励: 密集、逐步的奖励可以使轨迹保持在正轨上。与其在最后一次性地对输出进行评分,不如渐进式奖励模型对每个中间步骤进行评分,并在搜索偏离有效性时将其推回。PRM应用了这个想法,并通过奖励每个正确的子推导(而不仅仅是最终答案)在GSM8K和MATH上优于普通的思维链。

这些技术共同展示了一条超越当今限制的道路:可见的推理,始终忠实、高效和连贯地达到解决方案。这闭合了可见推理可验证行动之间的循环——我相信这条道路将推动LLM超越其当前的能力。

SnR实验室案例研究:工具增强的推理

作者所在的Rutgers大学传感与推理实验室(SnR)正在研究如何将丰富的现实世界传感与高级推理融合,以真正“理解”环境。例如,他们的SASS边缘堆栈实时摄取激光雷达、雷达和多摄像头视频,然后GeXSe使用帧级解释覆盖每个检测。

上述所有三种解决方案都非常适合SnR的智能空间管道。他们正在构建的ReAct风格的代理将:生成一个想法,调用SASS API或在数字孪生中运行A*(如果验证器标记不确定性),接收结构化反馈,并继续使用更新的上下文和新的令牌预算进行推理

但是,仅仅看到世界是不够的;我们还需要能够对这些多模式流进行推理的模型。思维链是强大的支架,但在少数几个跳跃后就会停滞不前。补救措施是显式工具使用加上拉伸推理范围的奖励结构。诸如ReAct(将思想与API调用交织在一起)和Toolformer(模型教会自己何时调用外部工具)之类的工作表明,语言代理可以将它们的推理扎根于可验证的行动中。诸如Tree-of-Thought和Think-RM之类的框架进一步推动了这一点,添加了系统的搜索和长期的奖励模型,以使代理在数十个步骤中保持连贯性。

SnR在两个测试平台中运行该配方。首先,是一个三方餐桌,代理、桌面机器人和用餐者协商餐具的放置。其次,是一个车内交接场景,代理在转移控制权之前向驾驶员解释变道决策。在这两种情况下,管道都是相同的:SASS提供融合的场景图,GeXSe使用视觉原理标记它,而ReAct风格的代理进行推理,直到达到不确定性。此时,模型调用领域工具——sass.query_bbox()用于行人姿势,dtwin.astar()用于安全重新路由,或edge.actuate(“crosswalk”, +7 s)用于延长信号灯,并将结果折叠回其思维链。他们在一个多步骤任务的课程上进行训练(“检测一个险些发生的事故,诊断原因,模拟修复”),并根据因果推理准确性和下游控制成功对每个情节进行评分。

SnR实验室的目标:在实时、传感器丰富的环境中将可见的推理转化为工具验证的行动。

结论:通往通用人工智能的道路

LLM的推理能力是通往通用人工智能的关键一步。通过思维链技术,我们已经能够观察和改进LLM的推理过程。然而,LLM的推理能力仍然存在局限性。为了克服这些局限性,我们需要将可见推理转化为可验证行动,这意味着我们需要为LLM提供工具,让它们能够与环境互动,并获得反馈。通过工具增强推理和逐步奖励,我们可以让LLM能够更好地权衡思考的深度和解决问题的效率,从而实现更强大的推理能力。只有当LLM能够在复杂、动态的环境中进行推理时,我们才能真正实现通用人工智能的梦想。未来的研究方向应该集中在如何开发更有效的工具和奖励机制,以及如何将这些工具和机制整合到LLM的训练过程中。我们有理由相信,通过不懈的努力,我们终将能够打造出真正具有推理能力的通用人工智能。