Chain of Draft：大模型提速的秘诀，更精简、更高效的AI思维方式

大型语言模型（LLM）正变得越来越强大，但它们也面临着一个共同的问题：冗长。想象一下，如果ChatGPT能像爱因斯坦一样思考，像海明威一样写作，那将会怎样？这就是Chain of Draft（CoD）所带来的潜力——一种极简主义、强有力的方法，它能使LLM更快、更精简，而且令人震惊地保持同样的智能水平。本文将深入探讨这种由Zoom Communications最新提出的方法，它可能会成为LLM的新超能力，从根本上改变大模型的效率。

Chain of Thought (CoT)的困境：过多的“思考”？

自从提示工程（prompting）的早期开始，AI研究人员就钟情于思维链（Chain of Thought，CoT）方法。基本上，就是让LLM“大声思考”，一步一步地分解复杂的任务。

CoT 示例：

Jason 有 20 个棒棒糖，给了 Denny 一些，现在还剩下 12 个。他给了 Denny 多少个？

Jason 有 20 个棒棒糖。
他给了 Denny 一些。
现在剩下 12 个。
20 – 12 = 8。
所以，答案是 8。

这种方法虽然有效，但其“冗长的推理”既昂贵又缓慢，而且常常是不必要的。这就像用一个段落来回答一个“是/否”问题。LLM倾向于冗述，而当你按token付费或等待实时结果时，这种冗述会造成很大的损失。例如，在实时客户服务场景中，CoT可能会导致响应时间过长，降低用户体验。

Chain of Draft (CoD)：精简内容，保留精华

新的范式——Chain of Draft（CoD）——借鉴了人类行为。我们在解决问题时，并不总是解释每一个想法；有时，我们只是潦草地写下一些笔记、一个快速的方程、一个草稿。那么，如果LLM也这样做呢？

CoD 示例：

20 – x = 12 → x = 8

一气呵成。精确、极简、快如闪电。CoD的核心在于通过限制每个步骤的token数量，迫使模型更加高效地进行推理，并聚焦于关键信息。

CoD 的优势：速度与效率的飞跃

研究人员在一系列复杂的基准测试中运行了实验，结果令人印象深刻：

算术推理 (GSM8k)：
- CoT：95.8% 的准确率，超过 190 个 token
- CoD：91.4% 的准确率，仅 40 个 token
- CoD 将延迟降低了高达 76%
常识推理 (BIG-Bench)：
- Claude 3.5 Sonnet 使用 CoT 生成了 189 个 token，而使用 CoD 仅生成了 14 个 token
- 在许多情况下，CoD 实际上在准确性上击败了 CoT
符号推理 (Coin Flip)：
- CoT 和 CoD 都达到了 100% 的准确率
- CoD 使用的 token 减少了 70%

Token 节省 = 成本节省，Token 减少 = 速度提升。这意味着CoD不仅降低了运营成本，还提高了响应速度，使其更适合需要快速决策的应用场景，比如金融市场的实时交易分析。

例如，假设一家公司使用LLM来分析社交媒体上的客户情绪，以便快速调整营销策略。使用CoD，他们可以更快地处理大量数据，并及时发现潜在的危机或机遇。

CoD 的实现：简单的提示工程技巧

CoD并非魔法，而是提示工程的技巧。以下是三种prompt风格的比较：

| 策略 | Prompt 风格 |
| ———– | —————————– |
| 标准 | “直接回答问题。” |
| CoT | “一步一步地思考…” |
| CoD | “一步一步地思考，但每一步只用5个词。” |

仅此而已！AI会调整自己的推理风格，并且它确实能很好地适应。通过简单地限制模型在每个推理步骤中使用的词汇数量，CoD可以有效地引导模型朝着更简洁的方向发展。

CoD 的局限性与改进方向

当然，CoD并非完美。研究人员注意到：

小型模型（<1B 参数）在 CoD 方面比 GPT-4o 和 Claude 3.5 等大型模型表现更差。
零样本 CoD（没有示例指导）的表现不如少样本设置。

原因在于，CoD 风格的 prompt 在 LLM 训练数据中并不常见。解决办法：使用更多 CoD 风格的推理来训练模型，这是一个简单的胜利。未来的研究可以集中在创建更有效的CoD prompt模板，以及开发专门针对CoD进行优化的微调技术。

CoD 的重要意义：人工智能发展的新方向

LLM 非常出色，但大多数都是臃肿的“话匣子”。
Chain of Draft 精简了内容，使我们离更智能、更快、更便宜的 AI 更近了一步。
在对时间敏感的应用程序中，例如实时 AI 助手、实时聊天或移动应用程序，CoD 可能是首选策略。

CoD 证明，要想变得聪明，不需要大声喧哗。这为大模型的未来发展方向提供了新的思路。

应用场景：CoD 的无限可能

1. 实时客户服务:

在快节奏的客户服务环境中，速度至关重要。使用 CoD，AI 助手可以更快地理解客户的查询并提供相关的解决方案，从而减少等待时间并提高客户满意度。

示例: 客户在聊天机器人中询问订单状态。
- CoT: “首先，我需要查询您的订单号。然后，我会从数据库中检索您的订单信息。接下来，我会查看订单的当前状态，例如’已发货’或’正在处理’。最后，我会将状态信息显示给您。”
- CoD: “查询订单号 -> 检索信息 -> 查看状态 -> 显示结果”

2. 金融交易:

在高频交易中，毫秒级的延迟可能导致巨大的财务损失。CoD 可以帮助 AI 系统更快地分析市场数据并做出交易决策，从而提高盈利能力。

示例: 分析新闻标题，判断对特定股票的影响。
- CoT: “阅读新闻标题。分析标题中的关键词和情绪。确定新闻是正面、负面还是中性。评估新闻对股票价格的潜在影响。根据分析结果，做出买入或卖出股票的决策。”
- CoD: “阅读标题 -> 分析情绪 -> 评估影响 -> 决策 (买/卖)”

3. 医疗诊断:

在医疗领域，快速准确的诊断可以挽救生命。CoD 可以帮助医生更快地分析患者的症状和病史，从而做出更明智的诊断和治疗决策。

示例: 根据患者描述的症状，初步判断可能的疾病。
- CoT: “患者描述的症状包括发烧、咳嗽和喉咙痛。这些症状可能表明多种疾病，例如感冒、流感或链球菌性咽喉炎。为了做出更准确的诊断，我需要询问患者更多的信息，例如症状的持续时间、严重程度以及是否存在其他症状。”
- CoD: “发烧 + 咳嗽 + 喉咙痛 -> 可能疾病 (感冒/流感/咽喉炎) -> 询问更多信息”

4. 智能家居:

在智能家居环境中，CoD 可以帮助 AI 系统更快地响应用户的语音命令并执行相应的操作，从而提供更无缝的用户体验。

示例: 用户说 “把灯调暗一点”。
- CoT: “用户要求我把灯调暗一点。我需要识别当前灯的亮度级别。然后，我需要将亮度级别降低一个适当的幅度。最后，我需要将灯的亮度调整到新的级别。”
- CoD: “用户命令 -> 识别亮度 -> 降低亮度 -> 调整灯光”

5. 移动应用:

在移动设备上，CoD 可以帮助 AI 系统更有效地利用有限的计算资源和电池寿命，从而提高应用程序的性能和用户体验。尤其是在资源受限的边缘计算设备上，CoD的优势更为明显。

减少思考，更好地起草，更快地回答

总而言之，Chain of Draft公式可以总结为：更少的思维链步骤 + 更简洁的表达 = 更快、更高效的大模型推理。这意味着提示工程不再仅仅是引导模型产生详细的解释，而是要引导模型专注于结果，并以最少的步骤达到目标。

这不仅仅是一个技巧，而是一种哲学

Chain of Draft 不仅仅是关于速度。它是一种新的LLM思维方式，灵感来自人类在努力提高效率而非仅仅表达时的解决问题方式。它就像教AI做智能笔记，而不是在句子中写小说。它代表了大模型开发的一种范式转变，从追求模型输出的详尽性转向追求模型推理的效率。未来的LLM可能不仅仅是知识的容器，更是高效的问题解决者。CoD的出现，无疑为这一愿景的实现铺平了道路。

Chain of Draft：大模型提速的秘诀，更精简、更高效的AI思维方式