大型语言模型 (LLM) 的发展,如 GPT-4、Claude 和 Gemini,涉及一个多阶段的过程。从宏观层面看,包括预训练 (Pretraining)、后训练 (Post-training),以及更高级的优化方法,如 PPO (Proximal Policy Optimization)、DPO (Direct Preference Optimization) 和 GRPO (Generalized Policy Regularized Optimization)。本文将深入探讨每个阶段的细节,基于原始训练洞察和行业中使用的真实方法,揭示 LLM 如何逐步实现与人类意图的对齐。
预训练:构建 LLM 的坚实基础
预训练是训练 LLM 的初始阶段。在这个阶段,模型接触到海量的文本语料库,从而学习语言的通用结构,包括语法、语义和模式,而无需针对任何特定任务进行调整。预训练的目标是让模型具备对语言的广泛理解,使其能够从海量数据中学习语言结构和语义关系。模型执行“下一个词预测”:给定一段文本序列,它学习预测接下来会出现什么词。通过这种方式,模型学习表达意义、关系、推理模式和事实信息。例如,在预训练阶段,一个 LLM 会读取大量的书籍、文章、网页等内容,学习到 “猫” 是一种动物,”狗” 也是一种动物,它们之间存在 “宠物” 这种上位概念,并且学会识别 “猫喜欢吃鱼” 这种句子结构。
然而,仅仅经过预训练的 LLM 并不具备固有的特定任务技能。它更像是一个知识渊博但缺乏明确目标的通才。这就是后训练发挥作用的地方。
后训练:专业化与对齐的实现
一旦完成预训练,后训练阶段就会对模型进行优化,使其适应特定任务,并与人类意图对齐。这一步骤使模型更加有用,更能响应现实世界的应用。后训练是模型实现专业化的阶段,通常通过监督式微调 (SFT) 和基于人类反馈的强化学习 (RLHF) 来实现。
例如,一个经过预训练的 LLM 可以被微调来专门处理法律文档摘要,或者生成代码,又或者回答客户支持查询。后训练的目标是将通用的语言理解能力转化为特定领域的专业技能。
近年来,后训练技术取得了显著的进步。虽然 SFT 和 RLHF 曾经是主导方法,但像 DPO 和 GRPO 这样的新方法正在挑战这种现状。
监督式微调 (SFT):引导模型走向专业化
SFT 涉及在一个较小的、标记好的数据集上训练预训练模型,其中明确提供了输入和期望的输出。这使得模型能够适应特定的领域或任务。例如,可以训练模型来总结法律文件、生成代码或回答客户支持查询。
虽然 SFT 也使用“下一个词预测”,但它与预训练的不同之处在于使用了标记数据。在预训练中,模型的目标是预测给定上下文的下一个词,而在 SFT 中,模型的目标是生成与给定输入相匹配的特定输出。例如,如果输入是“总结这份合同”,那么 SFT 模型的目标就是生成该合同的摘要。
SFT 的重要性体现在以下几个方面:
- 允许特定任务的适应: 模型可以专门针对特定任务进行优化,例如情感分析或文本生成。
- 引入人工策划的示例以指导模型: 人工策划的数据集包含高质量的输入-输出对,可以有效地指导模型学习期望的行为。
- 为高风险或专业领域定制模型的行为: 在医疗或法律等领域,准确性和可靠性至关重要,SFT 可以帮助模型在这些领域表现出色。
然而,SFT 在多大程度上能够对齐行为是有限的,尤其是在人类偏好复杂或微妙的情况下。这就是为什么我们需要强化学习。
强化学习 (RL) 在 LLM 中的应用
强化学习是一种机器学习类型,其中智能体(策略)通过与环境互动来学习做出决策,因好的行动而获得奖励,因坏的行动而受到惩罚。与监督式学习(其中已知真实情况)不同,RL 侧重于探索:尝试行动、接收反馈并随着时间的推移而改进。
核心概念包括:
- 策略: 决策规则(通常是神经网络)。
- 状态: 环境的表示。
- 奖励: 成功或失败的反馈信号。
- 轨迹: 状态和行动的序列。
- 折扣因子 (γ): 确定智能体对未来奖励的重视程度。
- γ = 0 → 只关注即时奖励
- γ = 1 → 将未来和当前奖励同等对待
使用 RL 训练的 LLM 优化响应的长期质量,而不仅仅是复制输出。例如,一个经过 RL 训练的 LLM 在生成对话时,不仅会关注当前回复的流畅性,还会考虑整个对话的上下文,以确保对话的连贯性和逻辑性。
PPO — 近端策略优化
PPO 是语言模型后训练中使用最广泛的 RL 算法。它被用于 OpenAI 的 ChatGPT 和许多类似的系统。
PPO 的工作原理(RLHF 流程):
- 步骤 1:收集人类演示数据: 通过人工标注员创建一个理想响应的数据集。
- 步骤 2:训练奖励模型: 对模型响应对按偏好进行排序,以训练一个对其进行评分的模型。
- 步骤 3:使用 PPO 优化 LLM: 使用近端策略优化微调模型,以最大化奖励分数。
PPO 的优势:
- 平衡学习和稳定性: 通过限制策略更新的幅度,防止模型发生剧烈变化。
- 使用剪裁将更新保持在“安全”范围内: 确保策略更新不会导致性能下降或模型崩溃。
- 有助于避免灾难性遗忘或偏离基础模型太远: 通过保留一部分原始模型的知识,防止模型忘记以前学到的知识。
例如,在训练 ChatGPT 时,OpenAI 使用 PPO 来微调 GPT-3 模型,使其能够生成更自然、更流畅、更符合人类偏好的对话。
DPO — 直接偏好优化
DPO 是一种更新、更简化的方法,它跳过了奖励模型。DPO 不对奖励进行建模,而是直接优化策略以优先选择人类喜欢的输出,使用“首选”和“拒绝”响应之间的对比损失。简单来说,DPO的核心思想是直接比较模型生成的两个输出,并根据人类的偏好来调整模型参数。如果人类更喜欢输出 A 而不是输出 B,那么 DPO 就会增加模型生成输出 A 的概率,并降低生成输出 B 的概率。
为什么它是一个改变游戏规则的算法:
- 不需要奖励模型: 省去了训练奖励模型的步骤,简化了训练流程。
- 直接从人类比较数据中训练: 直接利用人类的偏好数据来优化模型,避免了奖励模型带来的误差。
- 更易于实施且成本更低: 由于训练流程简化,DPO 的实施成本更低,也更容易上手。
DPO 学习:
- 如果响应 A 优于 B,则增加 A 的概率并降低 B 的概率。
它是 PPO 的一种优雅、高效的替代方案,已在多项任务中显示出相当或更好的性能。例如,在生成文本摘要的任务中,DPO 可以生成更简洁、更准确、更符合人类阅读习惯的摘要。
GRPO — 广义策略正则化优化
GRPO 概括了 DPO。它可以处理更广泛的人类反馈,包括排名列表、连续分数或软偏好。它引入了正则化以防止模型崩溃,并鼓励优化和模型保留之间的平衡。GRPO 是一种更灵活、更强大的算法,它可以适应不同的训练场景和人类反馈类型。
GRPO 的好处:
- 可以模拟 DPO、PPO 或新方法: 提供了一个统一的框架,可以实现不同的优化算法。
- 适用于嘈杂或软反馈: 可以处理不确定或不一致的人类反馈,提高了模型的鲁棒性。
- 比单一用途技术更灵活、更强大: 可以适应不同的任务和数据集,具有更强的泛化能力。
虽然仍处于实验阶段,但 GRPO 代表了构建安全、可操纵的 LLM 的下一代对齐方法。
挑战旧的假设
直到最近,人们还认为需要人工标注的数据来教授结构化推理和任务跟踪行为。例如,训练一个 LLM 来解决数学问题,需要提供大量带有正确答案的数学题目。
但诸如 DeepSeek R1 之类的新工作挑战了这一观点,表明即使没有传统的 RLHF,也可以通过模型缩放、架构或预训练技术的创新来实现涌现行为和阅读能力。这意味着,即使没有人工标注的数据,也可以通过改进模型结构和训练方法来提高 LLM 的推理能力。
结论:构建智能且与人类价值观对齐的模型
训练一个强大且对齐的 LLM 需要多个阶段:
- 预训练: 通用的语言和世界知识。
- SFT: 使用标记数据进行任务专业化。
- RLHF/PPO: 通过奖励优化进行偏好对齐。
- DPO/GRPO: 直接优化与人类对齐行为的高效、可扩展的替代方案。
随着该领域的发展,目标仍然是相同的:构建不仅智能,而且安全、有用且与人类价值观对齐的模型。 这是一个不断探索和创新的过程,需要研究人员、工程师和伦理学家共同努力,确保 LLM 的发展方向符合人类的利益。未来的 LLM 将更加智能、更加安全、更加有用,并最终成为人类智慧的延伸。 例如,未来的 LLM 可以帮助我们解决气候变化、疾病治疗等全球性挑战,并为我们提供更个性化、更智能的服务。