大型语言模型(LLM)的快速发展带来了前所未有的机遇,但也面临着如何确保模型输出与人类价值观对齐的挑战。传统的模型对齐方法往往依赖于大量的人工标注数据,例如对比数据,效率低下且难以捕捉人类决策的微妙之处。本文将深入探讨一种新兴的模型对齐框架:KTO (Kahneman-Tversky Optimization),它将前景理论引入模型对齐过程,并提出了HALO (Human-Aware Loss Objective) 损失函数,为解决这一问题提供了一种新的视角。

前景理论:理解人类决策的认知基础

前景理论是丹尼尔·卡尼曼和阿莫斯·特沃斯基提出的行为经济学理论,它颠覆了传统经济学中理性人的假设,指出人们在面对风险时并非总是做出最优决策,而是受到认知偏差的影响。前景理论的核心在于:人们的决策并非基于绝对收益或损失,而是基于相对于某个参考点的感知变化。

前景理论的关键概念包括:

  • 参考点:个体评估收益和损失的基准。例如,当前财富水平可以作为参考点
  • 价值函数:一个非线性函数,描述了收益和损失对个体主观价值的影响。价值函数在收益区域是凹函数,在损失区域是凸函数,并且损失的陡峭程度大于收益,体现了“损失厌恶”。
  • 损失厌恶:人们对损失的敏感程度远大于对同等收益的敏感程度。例如,损失100元的痛苦感可能远大于获得100元的快乐感。

案例:假设你面临两个选择:

  • A:确定性地获得500元。
  • B:50%的概率获得1000元,50%的概率什么也得不到。

根据前景理论,大多数人会选择A,因为在收益区域,价值函数是凹函数,收益的边际效用递减。这意味着,获得1000元的快乐感小于获得两个500元的快乐感之和。

数据:一项针对不同决策场景的研究表明,人们对损失的厌恶程度约为收益的两倍。这意味着,损失100元的痛苦感相当于获得200元的快乐感。

KTO与HALO:将前景理论融入模型对齐

KTO框架的核心思想是将前景理论融入模型对齐过程,通过构建HALO损失函数,使模型能够更好地理解和模拟人类的决策偏好。HALO损失函数不再依赖于传统的成对偏好数据,而是将每个模型输出与一个参考点进行比较,并根据其与参考点的差距来调整模型参数。

HALO损失函数的构成要素:

  1. 奖励函数 r(x, y): 用于评估模型在给定输入 x 下输出 y 的质量。在 KTO 中,通常使用策略的对数似然比来定义奖励函数。
  2. 参考分布 Q: 用于确定参考点,通常是对一批响应的期望值(例如,批次均值)。
  3. 价值函数 v(.): 借鉴前景理论的价值函数,在收益区域是凹函数,在损失区域是凸函数。KTO 中使用 Sigmoid 函数作为价值函数。

公式表达:

HALO Loss = -ax,y * v(r(x, y) – r_bar(x)) + CD

其中:

  • ax,y ∈ {+1, -1}: 表示 y 是首选还是非首选响应。
  • v(.): 根据前景理论,增益时为凹函数,损失时为凸函数。KTO 中使用 Sigmoid 作为 v() 函数。
  • r(x, y): 奖励。
  • r_bar(x): 参考奖励。
  • CD: 常数 (例如,依赖于数据集)。

HALO损失函数的关键优势在于:它能够捕捉人类决策的认知偏差,例如损失厌恶和收益递减。对于期望的输出,如果模型输出的奖励大于参考点,价值函数处于凹函数区域,反映了收益递减的效应。对于不期望的输出,如果模型输出的奖励小于参考点,价值函数处于凸函数区域,反映了损失厌恶的效应。

案例:假设一个LLM被要求生成一篇关于气候变化的科普文章。如果模型生成了一篇内容准确、逻辑清晰的文章,其奖励值高于参考点,那么HALO损失函数会以较小的力度奖励模型,因为额外的奖励带来的提升效果递减。相反,如果模型生成了一篇包含错误信息或逻辑混乱的文章,其奖励值低于参考点,那么HALO损失函数会以较大的力度惩罚模型,因为损失带来的影响远大于收益。

HALO与DPO:一种认知理论的泛化

文章指出,HALO是DPO (Direct Preference Optimization) 的一种认知理论泛化。DPO是一种直接优化语言模型的偏好方法,它依赖于成对偏好数据,并使用一个二元分类器来区分哪个输出更受偏好。

DPO 的局限性在于:

  • 需要成对比较数据,这限制了其数据效率。
  • 忽略了人类的认知偏差,例如风险厌恶和参考依赖性。

HALO通过引入前景理论,克服了DPO的局限性。当:

  • ax,y = +1 表示首选 y,-1 表示非首选。
  • v(z) = log(exp(z)/1+exp(z)) — logistic-style 价值函数。
  • 参考点 E[r(x, y′)] 隐式嵌入为 yl

DPO 成为 HALO 的一个特例,其中数据是成对的,价值函数 v 是 logistic 函数,参考点 = 不喜欢的响应。

案例:考虑一个场景,我们需要训练一个LLM来生成更符合用户偏好的摘要。使用DPO,我们需要收集大量的成对比较数据,例如,对于同一个文档,我们让用户选择哪个摘要更好。使用HALO,我们可以直接将每个摘要的奖励值与一个参考点进行比较,例如,所有摘要的平均奖励值,从而避免了成对比较数据的需求。

数据:实验结果表明,使用HALO训练的LLM在生成摘要、对话和代码等任务上,能够取得与DPO相当甚至更好的性能,同时数据效率更高。

模型对齐的未来:前景理论驱动的认知建模

KTO框架及其HALO损失函数为模型对齐提供了一种新的思路,它将前景理论引入模型对齐过程,使模型能够更好地理解和模拟人类的决策偏好。未来,我们可以进一步探索如何将其他认知模型融入模型对齐过程中,例如,注意力机制、记忆模型等,从而构建更加智能、可靠和符合人类价值观的LLM。

总结:

本文深入探讨了KTO框架,重点介绍了前景理论模型对齐中的应用以及HALO损失函数的优势。HALO损失函数通过借鉴前景理论的价值函数,能够捕捉人类决策的认知偏差,例如损失厌恶和收益递减,从而使模型能够更好地理解和模拟人类的偏好。未来,我们可以进一步探索如何将其他认知模型融入模型对齐过程中,构建更加智能、可靠和符合人类价值观的LLM。KTO和HALO的出现,为模型对齐开辟了新的道路,预示着前景理论在人工智能领域更广阔的应用前景

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注