从预训练到策略优化：大型语言模型 (LLM) 如何实现与人类意图对齐

大型语言模型 (LLM) 的发展，如 GPT-4、Claude 和 Gemini，涉及一个多阶段的过程。从宏观层面看，包括预训练 (Pretraining)、后训练 (Post-training)，以及更高级的优化方法，如 PPO (Proximal Policy Optimization)、DPO (Direct Preference Optimization) 和 GRPO (Generalized Policy Regularized Optimization)。本文将深入探讨每个阶段的细节，基于原始训练洞察和行业中使用的真实方法，揭示 LLM 如何逐步实现与人类意图的对齐。

预训练：构建 LLM 的坚实基础

预训练是训练 LLM 的初始阶段。在这个阶段，模型接触到海量的文本语料库，从而学习语言的通用结构，包括语法、语义和模式，而无需针对任何特定任务进行调整。预训练的目标是让模型具备对语言的广泛理解，使其能够从海量数据中学习语言结构和语义关系。模型执行“下一个词预测”：给定一段文本序列，它学习预测接下来会出现什么词。通过这种方式，模型学习表达意义、关系、推理模式和事实信息。例如，在预训练阶段，一个 LLM 会读取大量的书籍、文章、网页等内容，学习到 “猫” 是一种动物，”狗” 也是一种动物，它们之间存在 “宠物” 这种上位概念，并且学会识别 “猫喜欢吃鱼” 这种句子结构。

然而，仅仅经过预训练的 LLM 并不具备固有的特定任务技能。它更像是一个知识渊博但缺乏明确目标的通才。这就是后训练发挥作用的地方。

后训练：专业化与对齐的实现

一旦完成预训练，后训练阶段就会对模型进行优化，使其适应特定任务，并与人类意图对齐。这一步骤使模型更加有用，更能响应现实世界的应用。后训练是模型实现专业化的阶段，通常通过监督式微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 来实现。

例如，一个经过预训练的 LLM 可以被微调来专门处理法律文档摘要，或者生成代码，又或者回答客户支持查询。后训练的目标是将通用的语言理解能力转化为特定领域的专业技能。

近年来，后训练技术取得了显著的进步。虽然 SFT 和 RLHF 曾经是主导方法，但像 DPO 和 GRPO 这样的新方法正在挑战这种现状。

监督式微调 (SFT)：引导模型走向专业化

SFT 涉及在一个较小的、标记好的数据集上训练预训练模型，其中明确提供了输入和期望的输出。这使得模型能够适应特定的领域或任务。例如，可以训练模型来总结法律文件、生成代码或回答客户支持查询。

虽然 SFT 也使用“下一个词预测”，但它与预训练的不同之处在于使用了标记数据。在预训练中，模型的目标是预测给定上下文的下一个词，而在 SFT 中，模型的目标是生成与给定输入相匹配的特定输出。例如，如果输入是“总结这份合同”，那么 SFT 模型的目标就是生成该合同的摘要。

SFT 的重要性体现在以下几个方面：

允许特定任务的适应： 模型可以专门针对特定任务进行优化，例如情感分析或文本生成。
引入人工策划的示例以指导模型： 人工策划的数据集包含高质量的输入-输出对，可以有效地指导模型学习期望的行为。
为高风险或专业领域定制模型的行为： 在医疗或法律等领域，准确性和可靠性至关重要，SFT 可以帮助模型在这些领域表现出色。

然而，SFT 在多大程度上能够对齐行为是有限的，尤其是在人类偏好复杂或微妙的情况下。这就是为什么我们需要强化学习。

强化学习 (RL) 在 LLM 中的应用

强化学习是一种机器学习类型，其中智能体（策略）通过与环境互动来学习做出决策，因好的行动而获得奖励，因坏的行动而受到惩罚。与监督式学习（其中已知真实情况）不同，RL 侧重于探索：尝试行动、接收反馈并随着时间的推移而改进。

核心概念包括：

策略： 决策规则（通常是神经网络）。
状态： 环境的表示。
奖励： 成功或失败的反馈信号。
轨迹： 状态和行动的序列。
折扣因子 (γ)： 确定智能体对未来奖励的重视程度。
- γ = 0 → 只关注即时奖励
- γ = 1 → 将未来和当前奖励同等对待

使用 RL 训练的 LLM 优化响应的长期质量，而不仅仅是复制输出。例如，一个经过 RL 训练的 LLM 在生成对话时，不仅会关注当前回复的流畅性，还会考虑整个对话的上下文，以确保对话的连贯性和逻辑性。

PPO — 近端策略优化

PPO 是语言模型后训练中使用最广泛的 RL 算法。它被用于 OpenAI 的 ChatGPT 和许多类似的系统。

PPO 的工作原理（RLHF 流程）：

步骤 1：收集人类演示数据： 通过人工标注员创建一个理想响应的数据集。
步骤 2：训练奖励模型： 对模型响应对按偏好进行排序，以训练一个对其进行评分的模型。
步骤 3：使用 PPO 优化 LLM： 使用近端策略优化微调模型，以最大化奖励分数。

PPO 的优势：

平衡学习和稳定性： 通过限制策略更新的幅度，防止模型发生剧烈变化。
使用剪裁将更新保持在“安全”范围内： 确保策略更新不会导致性能下降或模型崩溃。
有助于避免灾难性遗忘或偏离基础模型太远： 通过保留一部分原始模型的知识，防止模型忘记以前学到的知识。

例如，在训练 ChatGPT 时，OpenAI 使用 PPO 来微调 GPT-3 模型，使其能够生成更自然、更流畅、更符合人类偏好的对话。

DPO — 直接偏好优化

DPO 是一种更新、更简化的方法，它跳过了奖励模型。DPO 不对奖励进行建模，而是直接优化策略以优先选择人类喜欢的输出，使用“首选”和“拒绝”响应之间的对比损失。简单来说，DPO的核心思想是直接比较模型生成的两个输出，并根据人类的偏好来调整模型参数。如果人类更喜欢输出 A 而不是输出 B，那么 DPO 就会增加模型生成输出 A 的概率，并降低生成输出 B 的概率。

为什么它是一个改变游戏规则的算法：

不需要奖励模型： 省去了训练奖励模型的步骤，简化了训练流程。
直接从人类比较数据中训练： 直接利用人类的偏好数据来优化模型，避免了奖励模型带来的误差。
更易于实施且成本更低： 由于训练流程简化，DPO 的实施成本更低，也更容易上手。

DPO 学习：

如果响应 A 优于 B，则增加 A 的概率并降低 B 的概率。

它是 PPO 的一种优雅、高效的替代方案，已在多项任务中显示出相当或更好的性能。例如，在生成文本摘要的任务中，DPO 可以生成更简洁、更准确、更符合人类阅读习惯的摘要。

GRPO — 广义策略正则化优化

GRPO 概括了 DPO。它可以处理更广泛的人类反馈，包括排名列表、连续分数或软偏好。它引入了正则化以防止模型崩溃，并鼓励优化和模型保留之间的平衡。GRPO 是一种更灵活、更强大的算法，它可以适应不同的训练场景和人类反馈类型。

GRPO 的好处：

可以模拟 DPO、PPO 或新方法： 提供了一个统一的框架，可以实现不同的优化算法。
适用于嘈杂或软反馈： 可以处理不确定或不一致的人类反馈，提高了模型的鲁棒性。
比单一用途技术更灵活、更强大： 可以适应不同的任务和数据集，具有更强的泛化能力。

虽然仍处于实验阶段，但 GRPO 代表了构建安全、可操纵的 LLM 的下一代对齐方法。

挑战旧的假设

直到最近，人们还认为需要人工标注的数据来教授结构化推理和任务跟踪行为。例如，训练一个 LLM 来解决数学问题，需要提供大量带有正确答案的数学题目。

但诸如 DeepSeek R1 之类的新工作挑战了这一观点，表明即使没有传统的 RLHF，也可以通过模型缩放、架构或预训练技术的创新来实现涌现行为和阅读能力。这意味着，即使没有人工标注的数据，也可以通过改进模型结构和训练方法来提高 LLM 的推理能力。

结论：构建智能且与人类价值观对齐的模型

训练一个强大且对齐的 LLM 需要多个阶段：

预训练： 通用的语言和世界知识。
SFT： 使用标记数据进行任务专业化。
RLHF/PPO： 通过奖励优化进行偏好对齐。
DPO/GRPO： 直接优化与人类对齐行为的高效、可扩展的替代方案。

随着该领域的发展，目标仍然是相同的：构建不仅智能，而且安全、有用且与人类价值观对齐的模型。这是一个不断探索和创新的过程，需要研究人员、工程师和伦理学家共同努力，确保 LLM 的发展方向符合人类的利益。未来的 LLM 将更加智能、更加安全、更加有用，并最终成为人类智慧的延伸。例如，未来的 LLM 可以帮助我们解决气候变化、疾病治疗等全球性挑战，并为我们提供更个性化、更智能的服务。

从预训练到策略优化：大型语言模型 (LLM) 如何实现与人类意图对齐