大型语言模型(LLM)正变得越来越强大,但它们也面临着一个共同的问题:冗长。想象一下,如果ChatGPT能像爱因斯坦一样思考,像海明威一样写作,那将会怎样?这就是Chain of Draft(CoD)所带来的潜力——一种极简主义、强有力的方法,它能使LLM更快、更精简,而且令人震惊地保持同样的智能水平。本文将深入探讨这种由Zoom Communications最新提出的方法,它可能会成为LLM的新超能力,从根本上改变大模型的效率。

Chain of Thought (CoT)的困境:过多的“思考”?

自从提示工程(prompting)的早期开始,AI研究人员就钟情于思维链(Chain of Thought,CoT)方法。基本上,就是让LLM“大声思考”,一步一步地分解复杂的任务。

CoT 示例:

Jason 有 20 个棒棒糖,给了 Denny 一些,现在还剩下 12 个。他给了 Denny 多少个?

Jason 有 20 个棒棒糖。
他给了 Denny 一些。
现在剩下 12 个。
20 – 12 = 8。
所以,答案是 8。

这种方法虽然有效,但其“冗长的推理”既昂贵又缓慢,而且常常是不必要的。这就像用一个段落来回答一个“是/否”问题。LLM倾向于冗述,而当你按token付费或等待实时结果时,这种冗述会造成很大的损失。例如,在实时客户服务场景中,CoT可能会导致响应时间过长,降低用户体验。

Chain of Draft (CoD):精简内容,保留精华

新的范式——Chain of Draft(CoD)——借鉴了人类行为。我们在解决问题时,并不总是解释每一个想法;有时,我们只是潦草地写下一些笔记、一个快速的方程、一个草稿。那么,如果LLM也这样做呢?

CoD 示例:

20 – x = 12 → x = 8

一气呵成。精确、极简、快如闪电。CoD的核心在于通过限制每个步骤的token数量,迫使模型更加高效地进行推理,并聚焦于关键信息。

CoD 的优势:速度与效率的飞跃

研究人员在一系列复杂的基准测试中运行了实验,结果令人印象深刻:

  • 算术推理 (GSM8k):

    • CoT:95.8% 的准确率,超过 190 个 token
    • CoD:91.4% 的准确率,仅 40 个 token
    • CoD 将延迟降低了高达 76%
  • 常识推理 (BIG-Bench):

    • Claude 3.5 Sonnet 使用 CoT 生成了 189 个 token,而使用 CoD 仅生成了 14 个 token
    • 在许多情况下,CoD 实际上在准确性上击败了 CoT
  • 符号推理 (Coin Flip):

    • CoT 和 CoD 都达到了 100% 的准确率
    • CoD 使用的 token 减少了 70%

Token 节省 = 成本节省,Token 减少 = 速度提升。这意味着CoD不仅降低了运营成本,还提高了响应速度,使其更适合需要快速决策的应用场景,比如金融市场的实时交易分析。

例如,假设一家公司使用LLM来分析社交媒体上的客户情绪,以便快速调整营销策略。使用CoD,他们可以更快地处理大量数据,并及时发现潜在的危机或机遇。

CoD 的实现:简单的提示工程技巧

CoD并非魔法,而是提示工程的技巧。以下是三种prompt风格的比较:

| 策略 | Prompt 风格 |
| ———– | —————————– |
| 标准 | “直接回答问题。” |
| CoT | “一步一步地思考…” |
| CoD | “一步一步地思考,但每一步只用5个词。” |

仅此而已!AI会调整自己的推理风格,并且它确实能很好地适应。通过简单地限制模型在每个推理步骤中使用的词汇数量,CoD可以有效地引导模型朝着更简洁的方向发展。

CoD 的局限性与改进方向

当然,CoD并非完美。研究人员注意到:

  • 小型模型(<1B 参数)在 CoD 方面比 GPT-4o 和 Claude 3.5 等大型模型表现更差。
  • 零样本 CoD(没有示例指导)的表现不如少样本设置。

原因在于,CoD 风格的 prompt 在 LLM 训练数据中并不常见。解决办法:使用更多 CoD 风格的推理来训练模型,这是一个简单的胜利。未来的研究可以集中在创建更有效的CoD prompt模板,以及开发专门针对CoD进行优化的微调技术。

CoD 的重要意义:人工智能发展的新方向

  • LLM 非常出色,但大多数都是臃肿的“话匣子”。
  • Chain of Draft 精简了内容,使我们离更智能、更快、更便宜的 AI 更近了一步。
  • 在对时间敏感的应用程序中,例如实时 AI 助手、实时聊天或移动应用程序,CoD 可能是首选策略。

CoD 证明,要想变得聪明,不需要大声喧哗。这为大模型的未来发展方向提供了新的思路。

应用场景:CoD 的无限可能

1. 实时客户服务:

在快节奏的客户服务环境中,速度至关重要。使用 CoD,AI 助手可以更快地理解客户的查询并提供相关的解决方案,从而减少等待时间并提高客户满意度。

  • 示例: 客户在聊天机器人中询问订单状态。
    • CoT: “首先,我需要查询您的订单号。然后,我会从数据库中检索您的订单信息。接下来,我会查看订单的当前状态,例如’已发货’或’正在处理’。最后,我会将状态信息显示给您。”
    • CoD: “查询订单号 -> 检索信息 -> 查看状态 -> 显示结果”

2. 金融交易:

在高频交易中,毫秒级的延迟可能导致巨大的财务损失。CoD 可以帮助 AI 系统更快地分析市场数据并做出交易决策,从而提高盈利能力。

  • 示例: 分析新闻标题,判断对特定股票的影响。
    • CoT: “阅读新闻标题。分析标题中的关键词和情绪。确定新闻是正面、负面还是中性。评估新闻对股票价格的潜在影响。根据分析结果,做出买入或卖出股票的决策。”
    • CoD: “阅读标题 -> 分析情绪 -> 评估影响 -> 决策 (买/卖)”

3. 医疗诊断:

在医疗领域,快速准确的诊断可以挽救生命。CoD 可以帮助医生更快地分析患者的症状和病史,从而做出更明智的诊断和治疗决策。

  • 示例: 根据患者描述的症状,初步判断可能的疾病。
    • CoT: “患者描述的症状包括发烧、咳嗽和喉咙痛。这些症状可能表明多种疾病,例如感冒、流感或链球菌性咽喉炎。为了做出更准确的诊断,我需要询问患者更多的信息,例如症状的持续时间、严重程度以及是否存在其他症状。”
    • CoD: “发烧 + 咳嗽 + 喉咙痛 -> 可能疾病 (感冒/流感/咽喉炎) -> 询问更多信息”

4. 智能家居:

在智能家居环境中,CoD 可以帮助 AI 系统更快地响应用户的语音命令并执行相应的操作,从而提供更无缝的用户体验。

  • 示例: 用户说 “把灯调暗一点”。
    • CoT: “用户要求我把灯调暗一点。我需要识别当前灯的亮度级别。然后,我需要将亮度级别降低一个适当的幅度。最后,我需要将灯的亮度调整到新的级别。”
    • CoD: “用户命令 -> 识别亮度 -> 降低亮度 -> 调整灯光”

5. 移动应用:

在移动设备上,CoD 可以帮助 AI 系统更有效地利用有限的计算资源和电池寿命,从而提高应用程序的性能和用户体验。尤其是在资源受限的边缘计算设备上,CoD的优势更为明显。

减少思考,更好地起草,更快地回答

总而言之,Chain of Draft公式可以总结为:更少的思维链步骤 + 更简洁的表达 = 更快、更高效的大模型推理。这意味着提示工程不再仅仅是引导模型产生详细的解释,而是要引导模型专注于结果,并以最少的步骤达到目标。

这不仅仅是一个技巧,而是一种哲学

Chain of Draft 不仅仅是关于速度。它是一种新的LLM思维方式,灵感来自人类在努力提高效率而非仅仅表达时的解决问题方式。它就像教AI做智能笔记,而不是在句子中写小说。它代表了大模型开发的一种范式转变,从追求模型输出的详尽性转向追求模型推理的效率。未来的LLM可能不仅仅是知识的容器,更是高效的问题解决者。CoD的出现,无疑为这一愿景的实现铺平了道路。