大模型中的“位置偏差”：AI 如何在选择中迷失方向

大型语言模型（LLM）正日益渗透到我们生活的方方面面，从招聘筛选到医疗决策，无处不在。然而，一项新的研究揭示了一个令人不安的现象：LLM 在比较相似选项时，会受到“位置偏差”的影响，即它们会倾向于选择在提示中出现顺序靠前的选项，而非真正更优的选择。这种偏差的影响远超想象，可能导致不公平的结果，甚至危及生命。本文将深入探讨这一问题，分析其成因、影响，并提供相应的缓解策略。

1. 位置偏差：大模型判断的隐形杀手

文章的核心发现集中在 位置偏差 这一概念上。简单来说，位置偏差指的是当 LLM 被要求在几个选项中做出选择时，它会系统性地偏好在提示中出现位置靠前的选项，而忽略选项本身的质量。作者在最初进行一个生成短篇小说的实验时，发现 GPT-4 总是选择先呈现的故事，即使将两个故事的顺序颠倒，它仍然会选择第一个故事。

这种现象并非个例，作者通过更严谨的实验，证实了位置偏差在多个 LLM 中普遍存在。想象一下，在一个招聘筛选场景中，如果 LLM 倾向于选择简历先被提交的候选人，那么许多优秀的候选人可能会因此失去机会。在医疗诊断中，如果 LLM 优先考虑首先列出的诊断结果，则可能会导致误诊和延误治疗。这些场景都凸显了位置偏差可能带来的严重后果。

2. 位置偏差的影响：远超你的想象

位置偏差的影响范围非常广泛。它不仅仅局限于短篇小说的选择，而是存在于任何需要 LLM 进行评估、排名或选择的场景中。文章作者特别强调了位置偏差在以下领域的潜在风险：

招聘筛选：不公平的排序可能导致优秀的候选人被错过，违反公平规则。
临床决策支持：先列出的诊断可能会影响模型的判断，威胁患者安全。
法律或政策分析：隐藏的顺序效应可能影响判例的选择和法律解释，影响司法公正。
内容审核：边缘案例可能仅仅因为出现在批处理中的位置而遭到误判。
多智能体协调/规划：协调 LLM 可能始终偏袒第一个子代理，阻碍其他方案的探索。

这些案例表明，位置偏差可能导致系统性的不公平或不正确的结果，因此与新兴的 AI 治理框架（如欧盟 AI 法案、美国 EEOC 指南）直接相关。如果你的应用属于受监管的“高风险”类别，那么审计和减轻位置偏差不是可选项，而是强制性的要求。

3. 研究方法：揭示偏差的严谨实验

为了深入了解 位置偏差 的性质和影响，作者采用了严谨的实验方法。他们首先回顾了最近关于 LLM 判断、提示策略和偏差缓解的文献，发现 GPT 模型表现出很强的首因效应，并且数值评级往往会压缩到狭窄的范围，而思维链提示虽然可以提高清晰度，但不能减少不一致性或偏差。

作者设计了一个受控的实验，让 LLM 对成对的故事进行判断。任务是：“阅读这两个故事板。哪一个更好？”他们测试了 OpenAI 的 GPT-4.1、GPT-4o-mini、GPT-4.1-nano、o4-mini 和阿里巴巴的 Qwen 3-30B-A3B 等多种模型。

实验的关键在于轮询配对和翻转测试。所有 15 个独特的 A vs B 配对都会运行 2 x 10 次，一次以原始顺序 (A-B)，一次以翻转顺序 (B-A)。通过这种方式，可以隔离位置效应：如果一个模型在第一次运行时选择 A，但在顺序颠倒时切换到 B，那么就可以确定是位置而不是内容驱动了判断。

为了量化位置偏差，作者计算了一个偏差分数，该分数显示了模型在 A vs. B 比较中偏爱哪个位置：

偏差分数 = (左侧获胜次数 - 右侧获胜次数) / (左侧获胜次数 + 右侧获胜次数)

-1（红色）：总是偏爱第一个故事。
0（灰色）：没有位置偏好。
+1（蓝色）：总是偏爱第二个故事。

他们还计算了一个解决率：模型明确选择获胜者而不是默认选择平局或冲突结果的百分比。

4. 实验结果：偏差的普遍存在与模型的差异

实验结果揭示了 位置偏差 的普遍存在，同时也展示了不同模型之间的差异。

GPT-4 系列：这些模型表现出极强的首因偏差。无论故事内容如何，它们总是选择第一个故事。偏差分数接近 -1，解决率接近 0%。
Qwen 3-30B：该模型略微倾向于第二个选项，表现出轻微的近因偏差。偏差分数在 +0.2 到 +0.4 之间。
o4-mini：该模型表现出最低的位置偏差，其热图大多为灰色，只有零星的红色和蓝色单元格。解决率也较高，表明它能够更可靠地区分相似的选项。

这些结果表明，位置偏差是一个真实存在的问题，而且不同模型的表现差异很大。在默认的 GPT-4 堆栈中，位置偏差往往是一个压倒性的因素。

5. 缓解策略：避免偏差的实用方法

确认了 位置偏差 的存在后，作者尝试了各种方法来修复它。一些想法最初看起来很有希望，但大多数都没有通过测试。最终，只有一种方法提供了可靠且可扩展的结果。

无效的方法：

数值评级量表 (1-10)：评级崩溃到无意义的 7-9 范围，掩盖了有用的信号。
提示工程（示例、锚点、模板）：指令提高了语气，但没有改善推理。
成对 + Elo（没有输入翻转）：Elo 分数未能消除偏差，因为每个匹配都受到位置的操纵。
思维链推理：输出更详细，但判断仍然是位置驱动的。
延迟判决：将推理与最终答案分开并没有帮助。
更大的 vanilla 模型：更大的模型听起来更聪明，但在故事相似时仍然默认为有偏差的选择。

有效的方法：

使用 Qwen 3-30B-A3B：该模型具有轻微的位置偏差（稍微偏爱第二个输入）、即使在细微差异上也有很强的性能，并且令牌成本远低于 GPT-4 级别的“思考”模型。
不要求数值分数：所有评估都通过成对比较完成。提问：这两个故事中哪个更好？
运行翻转感知比较：每个比较都以随机顺序 (A–B 或 B–A) 运行。如果模型选择了偏差有利的一侧（例如，在使用 Qwen 时选择第二个选项），则翻转顺序并再次测试：
1. 如果同一个故事两次都获胜，则接受它。
2. 如果结果翻转，则记录为平局。
让 Elo 消除其余部分：即使是相当数量的平局也是有用的。Elo 不需要完全确定性，只需要一致的相对判断。

这些策略的组合提供了一种实用且经济高效的方法来减轻 LLM 中的 位置偏差。

6. 公平 LLM 评估的检查清单

经过大量的试验、错误和失败的提示技巧，作者总结了一份实用的检查清单，在使用 LLM 判断或排名任何内容（从故事到摘要到战略计划）时应遵循：

假设位置很重要，直到证明并非如此：尽早测试并了解模型的方向偏差（例如，偏向第一个槽位或第二个槽位）。
避免使用数值评级。使用头对头匹配和 Elo 评分进行排名。
随机化输入顺序。
如果模型选择了偏差有利的一侧，则反转输入并重新运行。
将翻转视为平局。
保持思维链的审计性和一定质量，但不要期望奇迹。
在 ROI 合理时使用“思考”模型。否则，优化偏差/成本权衡。

7. 结论：警惕大模型的判断陷阱

文章最后强调，大型语言模型是令人难以置信的模式匹配器，但这正是它们成为不可靠的判断者的原因：它们会抓住任何最容易的模式，即使是像输入顺序这样微不足道的事情。

因此，如果你的管道依赖于 LLM 进行评估、排名或决策，请记住：验证过程，而不仅仅是答案。构建结构防御：翻转输入并观察反转。随着时间的推移测量和监控偏差。有意识地选择你的模型，在偏差、成本和任务复杂性之间取得平衡。

LLM 需要奖励位置一致性并惩罚位置偏差的训练目标。这些目标应该直接构建到未来评估者的强化学习循环中，因为强大的判断不会偶然出现。它必须经过训练。

总而言之，我们不应将 LLM 视为法庭上的法官，而应将其视为渴望的证人，他们记忆敏锐、意见快速，但很容易受到提问方式的影响。他们不权衡证据；他们对框架做出反应。因此，我们需要给他们设置护栏，检查偏差，并构建评估过程，假设他们有时会犯错，并为此进行设计。只有这样，我们才能充分利用 LLM 的潜力，同时避免其固有的偏见。

核心关键词：位置偏差、缓解策略

大模型中的“位置偏差”：AI 如何在选择中迷失方向

大模型中的“位置偏差”：AI 如何在选择中迷失方向

1. 位置偏差：大模型判断的隐形杀手

2. 位置偏差的影响：远超你的想象

3. 研究方法：揭示偏差的严谨实验

4. 实验结果：偏差的普遍存在与模型的差异

5. 缓解策略：避免偏差的实用方法

6. 公平 LLM 评估的检查清单

7. 结论：警惕大模型的判断陷阱

By llmtrend

大模型“推理模式” vs. “快速回答”：LongBench V2 视角下的长文本理解能力评估

AI 的“愚蠢”秘密：为何最聪明的大模型也搞不定基础逻辑？

构建卓越的LLM基准：以人为本的指南

大模型幻觉：当AI听起来很对，实际上大错特错

大模型Token成本控制：精打细算，玩转AI的省钱之道

NVIDIA 押注：小型语言模型（SLM）引领 Agentic AI 的未来

用爱发电，一人构建隐私至上的搜索引擎：Seek Ninja 与 Searcha Page 的崛起

大模型学习之旅：第二天——深入探索提示工程与AI伙伴的构建

You Missed

大模型幻觉：当AI听起来很对，实际上大错特错

大模型幻觉：当AI听起来很对，实际上大错特错

大模型Token成本控制：精打细算，玩转AI的省钱之道

大模型Token成本控制：精打细算，玩转AI的省钱之道

NVIDIA 押注：小型语言模型（SLM）引领 Agentic AI 的未来

NVIDIA 押注：小型语言模型（SLM）引领 Agentic AI 的未来

用爱发电，一人构建隐私至上的搜索引擎：Seek Ninja 与 Searcha Page 的崛起

用爱发电，一人构建隐私至上的搜索引擎：Seek Ninja 与 Searcha Page 的崛起

大模型中的“位置偏差”：AI 如何在选择中迷失方向

1. 位置偏差：大模型判断的隐形杀手

2. 位置偏差的影响：远超你的想象

3. 研究方法：揭示偏差的严谨实验

4. 实验结果：偏差的普遍存在与模型的差异

5. 缓解策略：避免偏差的实用方法

6. 公平 LLM 评估的检查清单

7. 结论：警惕大模型的判断陷阱

By llmtrend

Related Post

大模型“推理模式” vs. “快速回答”：LongBench V2 视角下的长文本理解能力评估

AI 的“愚蠢”秘密：为何最聪明的大模型也搞不定基础逻辑？

构建卓越的LLM基准：以人为本的指南

You Missed

大模型幻觉：当AI听起来很对，实际上大错特错

大模型Token成本控制：精打细算，玩转AI的省钱之道

NVIDIA 押注：小型语言模型（SLM）引领 Agentic AI 的未来

用爱发电，一人构建隐私至上的搜索引擎：Seek Ninja 与 Searcha Page 的崛起