KTO：基于前景理论的模型对齐新视角 - HALO 损失函数的认知优化

大型语言模型（LLM）的快速发展带来了前所未有的机遇，但也面临着如何确保模型输出与人类价值观对齐的挑战。传统的模型对齐方法往往依赖于大量的人工标注数据，例如对比数据，效率低下且难以捕捉人类决策的微妙之处。本文将深入探讨一种新兴的模型对齐框架：KTO (Kahneman-Tversky Optimization)，它将前景理论引入模型对齐过程，并提出了HALO (Human-Aware Loss Objective) 损失函数，为解决这一问题提供了一种新的视角。

前景理论：理解人类决策的认知基础

前景理论是丹尼尔·卡尼曼和阿莫斯·特沃斯基提出的行为经济学理论，它颠覆了传统经济学中理性人的假设，指出人们在面对风险时并非总是做出最优决策，而是受到认知偏差的影响。前景理论的核心在于：人们的决策并非基于绝对收益或损失，而是基于相对于某个参考点的感知变化。

前景理论的关键概念包括：

参考点：个体评估收益和损失的基准。例如，当前财富水平可以作为参考点。
价值函数：一个非线性函数，描述了收益和损失对个体主观价值的影响。价值函数在收益区域是凹函数，在损失区域是凸函数，并且损失的陡峭程度大于收益，体现了“损失厌恶”。
损失厌恶：人们对损失的敏感程度远大于对同等收益的敏感程度。例如，损失100元的痛苦感可能远大于获得100元的快乐感。

案例：假设你面临两个选择：

A：确定性地获得500元。
B：50%的概率获得1000元，50%的概率什么也得不到。

根据前景理论，大多数人会选择A，因为在收益区域，价值函数是凹函数，收益的边际效用递减。这意味着，获得1000元的快乐感小于获得两个500元的快乐感之和。

数据：一项针对不同决策场景的研究表明，人们对损失的厌恶程度约为收益的两倍。这意味着，损失100元的痛苦感相当于获得200元的快乐感。

KTO与HALO：将前景理论融入模型对齐

KTO框架的核心思想是将前景理论融入模型对齐过程，通过构建HALO损失函数，使模型能够更好地理解和模拟人类的决策偏好。HALO损失函数不再依赖于传统的成对偏好数据，而是将每个模型输出与一个参考点进行比较，并根据其与参考点的差距来调整模型参数。

HALO损失函数的构成要素：

奖励函数 r(x, y): 用于评估模型在给定输入 x 下输出 y 的质量。在 KTO 中，通常使用策略的对数似然比来定义奖励函数。
参考分布 Q: 用于确定参考点，通常是对一批响应的期望值（例如，批次均值）。
价值函数 v(.): 借鉴前景理论的价值函数，在收益区域是凹函数，在损失区域是凸函数。KTO 中使用 Sigmoid 函数作为价值函数。

公式表达：

HALO Loss = -ax,y * v(r(x, y) – r_bar(x)) + CD

其中:

ax,y ∈ {+1, -1}: 表示 y 是首选还是非首选响应。
v(.): 根据前景理论，增益时为凹函数，损失时为凸函数。KTO 中使用 Sigmoid 作为 v() 函数。
r(x, y): 奖励。
r_bar(x): 参考奖励。
CD: 常数 (例如，依赖于数据集)。

HALO损失函数的关键优势在于：它能够捕捉人类决策的认知偏差，例如损失厌恶和收益递减。对于期望的输出，如果模型输出的奖励大于参考点，价值函数处于凹函数区域，反映了收益递减的效应。对于不期望的输出，如果模型输出的奖励小于参考点，价值函数处于凸函数区域，反映了损失厌恶的效应。

案例：假设一个LLM被要求生成一篇关于气候变化的科普文章。如果模型生成了一篇内容准确、逻辑清晰的文章，其奖励值高于参考点，那么HALO损失函数会以较小的力度奖励模型，因为额外的奖励带来的提升效果递减。相反，如果模型生成了一篇包含错误信息或逻辑混乱的文章，其奖励值低于参考点，那么HALO损失函数会以较大的力度惩罚模型，因为损失带来的影响远大于收益。

HALO与DPO：一种认知理论的泛化

文章指出，HALO是DPO (Direct Preference Optimization) 的一种认知理论泛化。DPO是一种直接优化语言模型的偏好方法，它依赖于成对偏好数据，并使用一个二元分类器来区分哪个输出更受偏好。

DPO 的局限性在于：

需要成对比较数据，这限制了其数据效率。
忽略了人类的认知偏差，例如风险厌恶和参考依赖性。

HALO通过引入前景理论，克服了DPO的局限性。当：

ax,y = +1 表示首选 y，-1 表示非首选。
v(z) = log(exp(z)/1+exp(z)) — logistic-style 价值函数。
参考点 E[r(x, y′)] 隐式嵌入为 yl。

DPO 成为 HALO 的一个特例，其中数据是成对的，价值函数 v 是 logistic 函数，参考点 = 不喜欢的响应。

案例：考虑一个场景，我们需要训练一个LLM来生成更符合用户偏好的摘要。使用DPO，我们需要收集大量的成对比较数据，例如，对于同一个文档，我们让用户选择哪个摘要更好。使用HALO，我们可以直接将每个摘要的奖励值与一个参考点进行比较，例如，所有摘要的平均奖励值，从而避免了成对比较数据的需求。

数据：实验结果表明，使用HALO训练的LLM在生成摘要、对话和代码等任务上，能够取得与DPO相当甚至更好的性能，同时数据效率更高。

模型对齐的未来：前景理论驱动的认知建模

KTO框架及其HALO损失函数为模型对齐提供了一种新的思路，它将前景理论引入模型对齐过程，使模型能够更好地理解和模拟人类的决策偏好。未来，我们可以进一步探索如何将其他认知模型融入模型对齐过程中，例如，注意力机制、记忆模型等，从而构建更加智能、可靠和符合人类价值观的LLM。

总结：

本文深入探讨了KTO框架，重点介绍了前景理论在模型对齐中的应用以及HALO损失函数的优势。HALO损失函数通过借鉴前景理论的价值函数，能够捕捉人类决策的认知偏差，例如损失厌恶和收益递减，从而使模型能够更好地理解和模拟人类的偏好。未来，我们可以进一步探索如何将其他认知模型融入模型对齐过程中，构建更加智能、可靠和符合人类价值观的LLM。KTO和HALO的出现，为模型对齐开辟了新的道路，预示着前景理论在人工智能领域更广阔的应用前景。

KTO：基于前景理论的模型对齐新视角 – HALO 损失函数的认知优化