随着大模型(LLM)技术的飞速发展,如何有效地对齐(Alignment)模型的目标与人类的价值观变得至关重要。传统的基于人类反馈的强化学习(RLHF)方法,虽然在早期取得了显著的成果,但其复杂性、资源需求和稳定性问题也日益凸显。本文将探讨超越传统RLHF的一些新兴技术,包括直接偏好优化(DPO)、宪法AI(CAI)以及其他一些有前景的策略,从而展望LLM对齐的未来。

RLHF的局限性与挑战

RLHF作为一种经典的对齐方法,通过三个阶段(监督微调SFT、奖励模型RM训练、基于PPO的强化学习RL)来引导LLM学习人类的偏好。然而,这种方法存在着固有的局限性:

  • 复杂性:RLHF需要管理多个独立的模型和超参数,这增加了训练的复杂性,需要专业的知识和经验。
  • 稳定性:PPO算法对超参数的调整非常敏感,容易出现训练不稳定,导致结果不可预测。
  • 资源密集型:RLHF需要训练多个大型模型,包括SFT策略模型、RM、RL策略模型、critic模型以及参考模型,这需要大量的计算资源和内存。
  • RM依赖性:RLHF的整体性能高度依赖于奖励模型的质量。一个不完善或容易被“博弈”的RM可能会导致模型学习到不期望的行为。例如,如果RM仅仅奖励生成文本的长度,模型可能会倾向于生成冗长、无意义的回复。

这些挑战促使研究人员探索更有效、更直接的偏好对齐方法。

直接偏好优化(DPO):作为分类的对齐

直接偏好优化(DPO)是一种引人注目的替代方案,它通过直接优化LLM策略来简化对齐过程。DPO的核心思想是利用人类提供的偏好对(prompt,选择的回复,拒绝的回复)来训练模型,避免了显式训练单独的奖励模型和后续复杂的强化学习优化阶段。

DPO将偏好对齐问题巧妙地转化为一个简单的监督学习任务,具体来说,是一个基于偏好数据的二元分类损失。它利用了一个理论洞察,即Bradley-Terry奖励模型的最优RLHF策略与参考策略(通常是SFT模型)和隐式奖励函数存在特定的数学关系。DPO本质上是反转这种关系,从而直接基于偏好来优化策略。

DPO的优势:

  • 简易性:DPO的实现和训练比多阶段的RLHF pipeline要简单得多。
  • 稳定性:由于目标函数的监督学习特性,DPO的训练通常更稳定,避免了RL的探索和收敛挑战。
  • 资源效率:通过消除对单独RM和复杂RL循环的需求,DPO可以更节省计算资源和内存。然而,它仍然需要加载参考模型。
  • 案例:在AlpacaFarm的实践中,研究人员发现,使用DPO训练的模型在某些基准测试中表现优于使用RLHF训练的模型,并且训练所需的计算资源更少。

DPO的局限性:

  • 冗长性和可能性位移:DPO对齐的模型有时会产生更长的回复。一个更微妙的问题是“可能性位移”,即首选回复的绝对对数可能性在训练期间可能会降低,即使隐式奖励的差异增加。这可能会对需要高概率生成的任务产生负面影响。
  • 对噪声数据的敏感性:DPO对偏好数据集中的噪声或不一致性很敏感。如果数据集包含错误的偏好标签,模型可能会学习到不正确的行为。
  • 长度偏差和忽略Token的重要性:像RLHF一样,DPO可能受到长度偏差的影响,并且可能无法最佳地权衡关键Token。

DPO的快速演进:

DPO的简易性和有效性催生了许多旨在解决其局限性或扩展其功能的变体。其中包括用于可能性位移的校准DPO(Cal-DPO),Token重要性引导的DPO(TI-DPO),用于长度偏差和无参考训练的长度控制边际偏好优化(LMPO),统一各种扩展的RAINBOWPO以及避免Bradley-Terry假设的InfoPO,以及许多其他诸如R-DPO,IPO,SimPO和SLiC-hf等方法。这种快速发展突显了该领域对更简单,更稳定和在计算上易于处理的对齐方法的强烈兴趣。如果DPO类方法始终如一地以更低的复杂性匹配或超过传统RLHF的性能,则它们可能成为主流,从而可能使对齐民主化。

基于AI反馈的强化学习(RLAIF):AI作为标注者

RLAIF是一种RLHF的变体,其中人类偏好标记步骤部分或完全由另一个AI模型生成的反馈代替,通常是一个功能强大的LLM。 “AI法官”提供偏好信号(例如,排名或评论),然后将其用于训练奖励模型或直接优化策略。

实施策略:

  • 将AI反馈提炼到训练RM中:AI模型为成对的响应生成偏好标签。这些AI生成的标签(例如,来自UltraFeedback或HelpSteer2的数据集)用于训练标准的RM,然后将其用于RL循环中。
  • 直接提示LLM作为奖励函数:无需训练单独的RM,可以在推理时提示一个功能强大的LLM来直接对响应进行评分或提供用作奖励信号的评论(有时称为RLAIF或GenRM)。
  • 自我奖励模型:正在训练的LLM学习为其输出生成自己的奖励或偏好标签,通常会迭代地提高其生成和自我评估能力(例如,自我奖励语言模型-SRLM)。

RLAIF的优势:

  • 可扩展性和速度:RLAIF可以比手动人工注释更快,更经济地大幅扩展偏好数据的生成。

RLAIF的挑战:

  • AI法官的对齐:主要的挑战是确保提供反馈的AI模型本身与人类价值观良好对齐,并且不会引入自己的偏见或错误。如果AI法官有缺陷,RLAIF可能会使这些缺陷永久化或放大。
  • 模型特定偏差的风险和反馈质量:AI法官可能具有特殊的偏好,并且其反馈质量可能并不总是与专家级人类注释者相符,尤其是在高度主观的偏好方面。

RLAIF的兴起引入了一个“对齐悖论”:要对齐一个AI,通常需要另一个已经良好对齐的AI。这转移了对齐问题,而不是完全消除人类的参与,人类的参与对于审核AI法官和确保所教授的价值观是可取的仍然至关重要。 例如,如果用于训练奖励模型的AI评论员本身存在偏见,比如对特定政治立场的支持,那么训练出的模型也可能表现出类似的偏见。

宪法AI(CAI):基于原则的自我对齐

宪法AI(CAI)是由Anthropic开发的一种特定的RLAIF方法,旨在训练有帮助且无害的AI助手,并且对无害性的直接人工监督最少。CAI不依赖于人工标记有害内容,而是使用一组预定义的人工编写的原则或规则(即“宪法”)来指导AI的行为。AI学习根据这些宪法原则批判和修改自己的回应。

训练过程:

  • 监督学习(SL)阶段:该模型会生成初始响应(例如,针对旨在引出有害内容的提示),根据随机抽样的宪法原则批判自己的响应,然后修改其响应以遵守该批判。然后,在一个自我生成的修改后的响应上对基础LLM进行微调(SFT)。
  • 强化学习(RLAIF)阶段:SL-CAI模型生成成对的响应。AI反馈模型会评估这些对,选择更符合宪法原则的一个,从而创建一个AI生成的无害性偏好数据集。这通常与用于提供帮助的人工生成的偏好数据混合在一起。在这种组合数据集上训练一个偏好模型(PM),并通过RL(例如,PPO或DPO)根据该PM对SL-CAI模型进行微调。

CAI的优势:

  • 减少了对无害性的人工标记,由于明确的原则而提高了透明度,旨在实现非回避的无害性(解释拒绝),并通过修改宪法加快了迭代速度。
  • 案例:Anthropic通过CAI训练出的Claude模型,在避免生成有害内容方面表现出色,同时还能清晰地解释其拒绝提供特定回复的原因。

CAI的缺点与考虑:

  • 有效性在很大程度上取决于宪法的质量和全面性以及AI解释和应用宪法的能力。较小型号的性能可能是一个问题(例如,Llama 3–8B表明,以牺牲帮助性和出现模型崩溃的迹象为代价,提高了无害性)。像任何对齐技术一样,如果宪法存在缺陷或恶意,CAI可以用来使模型与不良原则对齐。 例如,如果宪法包含歧视性的条款,那么训练出的模型也可能表现出歧视行为。

其他新兴技术:扩展工具包

LLM对齐的格局在不断发展:

  • 比较神谕偏好优化(ComPO):一种直接对齐方法,使用“比较神谕”来处理嘈杂的偏好对。
  • 通用偏好模型(GPM)和通用偏好优化(GPO):旨在通过使用多维“偏好嵌入”来建模复杂的,甚至是非传递的偏好来克服Bradley-Terry的局限性。
  • 安全RLHF-V:一种多模式安全对齐的框架,使用单独的奖励和成本模型以及基于拉格朗日的约束优化。
  • 隐私保护对齐:将差分隐私(DP)与DPO和RLHF之类的方法集成在一起,以保护偏好数据集中敏感的用户数据。

这些技术代表了LLM对齐领域中令人兴奋的进展,并有可能克服现有方法的局限性。

总结与展望

传统的RLHF在LLM对齐方面取得了重大进展,但也面临着复杂性、资源需求和稳定性等挑战。DPO通过简化训练过程和提高稳定性,成为了一个有希望的替代方案。RLAIF则探索了利用AI自身来提供反馈的可能性,但同时也带来了如何对齐“AI法官”的难题。宪法AI则试图通过明确的原则来引导模型的行为,但其有效性依赖于宪法的质量。

展望未来,LLM对齐的研究将朝着更加高效、稳定、可扩展和可解释的方向发展。我们可以预见,未来的对齐方法将更加注重:

  • 减少对人工标注的依赖:通过使用合成数据、自监督学习等技术来减少对昂贵且耗时的人工标注数据的依赖。
  • 提高模型的鲁棒性:使模型能够更好地适应不同的任务和环境,并减少对训练数据的过拟合。
  • 增强模型的可解释性:使人们能够更好地理解模型的行为,并识别和纠正潜在的偏差和错误。
  • 关注安全和伦理问题:确保模型不会生成有害、歧视或不道德的内容。

随着LLM技术的不断进步,对齐问题将变得越来越重要。通过不断探索新的技术和方法,我们可以构建出更加智能、安全和有益于人类的AI系统。