超越奖励：理解强化学习及其在对齐大语言模型与人类价值观中的作用

引言：强化学习 (RL) 技术近年来在对齐 大语言模型 (LLMs) 与人类价值观方面扮演着日益重要的角色。从最初的机器人控制、算法交易到游戏 AI，RL 的应用领域不断扩展。然而，在对齐 LLMs 方面，我们面临着一个全新的挑战：如何让模型在缺乏明确、预定义奖励函数的情况下，学习并遵循人类主观、微妙且依赖于上下文的偏好？本文将深入探讨 强化学习 的基础，剖析 基于人类反馈的强化学习 (RLHF) 的技术原理，并介绍诸如 直接偏好优化 (DPO) 等新兴方法如何简化模型对齐，最终展望这些技术如何塑造更安全、更符合人类价值观的 LLMs 的未来。

1. 传统强化学习的核心概念

强化学习 (RL) 的核心在于一个智能体 (Agent) 通过与环境 (Environment) 的交互，学习做出序列决策，从而最大化累积奖励。这个过程可以形式化地描述为马尔可夫决策过程 (MDP)。Agent 在每个时刻感知当前状态 (State)，选择一个动作 (Action)，并从环境中获得一个奖励 (Reward)，然后转移到新的状态。与监督学习不同，RL 并不依赖于带标签的训练数据，而是通过试错和奖励机制来学习。

例如，在训练一个自动驾驶汽车的 RL 模型时，环境可以是道路和交通状况，Agent 是汽车的控制系统，动作可以是加速、刹车或转向，奖励可以是安全到达目的地或避免碰撞。通过不断地尝试不同的动作，并根据获得的奖励（例如，成功行驶一段距离获得正奖励，发生碰撞获得负奖励），Agent 可以学习到最优的驾驶策略。

在 RL 中，主要有两类算法：

基于价值的方法：例如 Q-Learning 和 Deep Q-Networks (DQN)，它们旨在估计在给定状态下采取某个动作的预期回报（或价值）。策略则是隐式地从价值估计中派生出来的。
基于策略的方法：例如 REINFORCE 或 Proximal Policy Optimization (PPO)，它们直接优化 Agent 的策略，即动作概率分布。这种方法更适合于具有连续动作空间或价值估计变得不稳定的环境。

还有一种混合方法，称为 Actor-Critic 方法，例如 Advantage Actor-Critic (A2C)，其中“Actor”学习策略（即如何行动），而“Critic”估计价值函数（即行动的好坏），从而帮助稳定和加速训练。

在深入探讨 RLHF 之前，需要认识到传统的 RL 依赖于明确的、环境定义的奖励信号。Agent 通过探索、利用和更新其行为，基于一个明确定义的奖励函数。然而，当涉及到主观的人类偏好时，这种方法就面临着挑战，而 RLHF 正是试图解决这个问题。

2. 传统 RL 在 LLMs 领域的局限性

对于 大语言模型 (LLMs) 而言，传统的 RL 框架面临着诸多挑战。首先，没有明确的“环境”。LLM 的“动作”是生成一个 token，而“episode”是生成完整的回复。而最关键的奖励信号往往难以明确定义。

举个例子：一个聊天机器人可能会用以下两种方式回应用户的问题：“抱歉，我没有足够的信息来回答这个问题。” 或 “随便吃点你家里有的药，应该会有效。”

尽管两种回应在语法和流畅性上都可能合格，但前者谨慎且安全，而后者却极度不负责任。传统的 RL 依靠明确的、预定义的奖励，因此无法区分这些回应在安全性、帮助性或伦理上的差异。

传统 RL 无法捕捉人类偏好的细微差别，原因在于：

主观性：人类对于什么构成“好”的回复往往是主观的，这取决于个人价值观、文化背景和特定语境。
复杂性：评估 LLM 回复的质量需要考虑多个维度，例如事实准确性、逻辑一致性、礼貌程度和避免偏见等。
稀疏性：即使在训练数据中包含大量人类反馈，但对于 LLM 可能生成的无数种回复，反馈仍然是稀疏的。

因此，为了使 LLMs 能够生成更符合人类价值观的回应，我们需要一种能够将主观的人类偏好转化为可训练的奖励信号的方法，而这正是 基于人类反馈的强化学习 (RLHF) 的核心思想。

3. RLHF 的核心流程：将人类偏好转化为奖励信号

基于人类反馈的强化学习 (RLHF) 是一种多阶段流程，建立在监督学习和 RL 的基础上。RLHF 的目标是生成人类认为更有用、无害或更符合其意图的输出。其核心步骤如下：

3.1. 监督微调 (SFT)

首先，我们从一个基础 LLM（例如 GPT-3、LLaMA 或 Mistral）开始，并在特定任务的指令遵循数据上对其进行微调。

数据：由人工标注者或众包工作者整理的指令-响应对。例如，指令可以是 “写一篇关于气候变化的短文”，而响应则是一篇符合要求的短文。
损失函数：在 (指令, 响应) 对上使用交叉熵损失。
输出：一个能够遵循指令的模型，但尚未与人类在细微差别上的偏好对齐。

例如，我们可以使用一个包含 10,000 个指令-响应对的数据集来微调 LLaMA-2 7B 模型。通过监督微调，我们可以让模型学会根据给定的指令生成初步的文本。

3.2. 奖励模型 (RM) 训练

这是 RLHF 的核心步骤 —— 将定性的反馈转化为定量的奖励信号。奖励模型接收一个 prompt x 和一个候选响应 y，并预测一个标量分数，指示人类的偏好程度。

输入：一个 prompt + 多个模型生成的输出。例如，prompt 可以是 “总结一下量子力学的基本原理”，而模型生成的输出可以是多个不同的总结版本。
人类标注者：对响应进行排序 —— 确定人类的偏好。例如，人工标注者可能会将其中一个总结版本标记为“最佳”，另一个标记为“较好”，而剩余的标记为“差”。
训练目标：优化一个成对排序损失，鼓励模型为更受偏好的响应分配更高的奖励。常用的损失函数包括 Bradley-Terry 损失和 Hinge 损失。

例如，我们可以收集 100,000 个人类标注的 prompt-响应对，并训练一个基于 Transformer 的奖励模型。通过训练，该模型可以学会预测人类对不同响应的偏好程度，并给出相应的奖励分数。

3.3. RL 微调 (例如，PPO)

现在我们有了：

一个经过监督微调的模型 (SFT)
一个基于人类偏好训练的奖励模型

我们使用 Proximal Policy Optimization (PPO) 对 SFT 模型进行微调，其中奖励信号来自奖励模型。每个生成的响应都会从奖励模型获得一个“偏好分数”，而 PPO 会引导策略倾向于那些响应。

PPO 算法：PPO 是一种 RL 算法，用于在 RLHF 中优化模型（策略），同时保持稳定性。
关键特性：
- 旨在避免大的、不稳定的更新。
- 使用一个裁剪目标，确保新策略不会离旧策略太远。
- 平衡探索和利用。
挑战和考虑：
- 高计算成本：PPO 需要批量解码多个响应、奖励模型评估以及通过 LLM 的梯度更新 —— 使得其需要大量的 GPU 资源，并且扩展成本高昂。
- 奖励劫持：模型可能学会 “玩弄” 奖励模型，生成得分很高但实际上并不符合人类意图的输出。例如，模型可能会生成一些看起来很安全，但实际上却包含潜在风险的回复。
- 稀疏或误导性的偏好：人类偏好数据可能不一致，并且奖励信号可能无法捕捉细微的问题，例如语气、语境或伦理。
技术细节：
- KL 惩罚：在目标中添加一个 Kullback-Leibler 散度惩罚，以防止更新后的模型偏离 SFT 基线太远。这种正则化稳定了训练，并将输出保持在期望的分布范围内。
- 优势估计：PPO 使用广义优势估计 (GAE) 来计算一个动作（token）相比于预期行为的好坏程度。这有助于在长序列中传播有用的奖励信号，这在文本生成任务中尤其重要。

例如，我们可以使用 PPO 算法来微调经过 SFT 的 LLaMA-2 7B 模型，并使用训练好的奖励模型来提供奖励信号。通过 PPO 微调，我们可以让模型生成更符合人类偏好的回复，例如更安全、更负责任的回复。

4. DPO：一种更简单的对齐方法

尽管基于 PPO 的 RLHF 有效，但它很复杂且需要仔细调整。直接偏好优化 (DPO) 是一种最近的方法，它完全绕过了奖励模型和强化学习。

关键特性：
- 直接在人类偏好数据（首选和拒绝响应对）上进行训练。
- 优化一个对比损失：它鼓励模型为首选响应分配更高的可能性，而不是拒绝的响应。
- 不需要奖励模型或 PPO。
优点：
- 更容易、更快地训练。
- 更稳定和样本效率更高。
- 与任何仅解码器的 LLM 兼容。
权衡：
- 在捕获长期的奖励模式方面，可能不如 PPO 强大。

DPO 的核心思想是，通过直接比较模型生成的两个响应，并根据人类的偏好来调整模型的参数，从而避免了训练奖励模型的步骤。这大大简化了 RLHF 的流程，并降低了计算成本。

例如，我们可以收集 50,000 个人类标注的 prompt-首选响应-拒绝响应三元组，并使用 DPO 算法来训练 LLaMA-2 7B 模型。通过 DPO 训练，我们可以让模型直接学习人类的偏好，并生成更符合人类价值观的回复。

5. GRPO：广义的偏好优化

GRPO (Group Relative Policy Optimization) 是 DeepSeek 对 DPO 的扩展，它解决了 DPO 的局限性，并统一了多个基于偏好的目标。GRPO 通过引入基于组的优势估计，并将 KL 正则化直接集成到损失中，从而在 DPO 的基础上构建，从而实现更稳定和高效的基于偏好的微调。它统一了 RLHF 和 DPO 的优点，同时消除了对单独的奖励或价值函数的需求。

关键特性：
- 将 DPO 推广到其他形式的偏好信号（包括多种反馈方式）。
- 可以整合 token 级别的偏好、成对排名和轨迹级别的奖励。
- 提供更好的灵活性和对偏好学习的细粒度控制。
- 与 PPO 风格和 DPO 风格的训练目标兼容。

GRPO 相比 DPO 的优势在于，它可以处理更复杂和多样的偏好信号，例如可以同时考虑 token 级别的偏好（例如，某个 token 是否合适）、成对排名（例如，哪个响应更好）和轨迹级别的奖励（例如，整个对话的质量）。这使得 GRPO 能够更好地捕捉人类偏好的细微差别，并生成更符合人类价值观的回复。

例如，我们可以使用一个包含 token 级别偏好、成对排名和轨迹级别奖励的数据集来训练 LLaMA-2 7B 模型。通过 GRPO 训练，我们可以让模型学习更复杂的人类偏好，并生成更安全、更负责任的回复。

总结

RLHF = 框架：SFT → 奖励模型 → PPO。
PPO = 在 RLHF 内部使用的 RL 算法。
DPO = RLHF 的简化版本：跳过奖励模型 + PPO，直接在人类偏好上进行训练。
GRPO = DPO 的广义版本，可以处理更多类型的偏好信号。

结论：迈向更符合人类价值观的 AI

大语言模型 (LLMs) 功能强大，但如果缺乏对齐，则存在风险。基于人类反馈的强化学习 (RLHF) 为我们提供了一种教导模型我们偏好的方式，而不仅仅是教导模型统计上可能的结果。随着 直接偏好优化 (DPO)、GRPO 等更新、更简单的方法的出现，我们正在朝着更高效和可扩展的对齐方向发展。

这不仅仅是关于更好的模型 —— 而是关于构建真正理解我们的 AI。通过不断改进 RLHF 及其变体，我们可以让 LLMs 更好地服务于人类，并创造一个更安全、更美好的未来。未来，我们需要进一步研究如何收集更可靠、更全面的用户反馈数据，并开发更先进的 RLHF 算法，从而实现 LLMs 与人类价值观的更完美对齐。

超越奖励：理解强化学习及其在对齐大语言模型与人类价值观中的作用