RESEARCH · 2025年11月

突破 Bradley-Terry 束缚，定义下一代偏好对齐

迈向认知启发的"不确定性感知"对齐

EMNLP 2025 arXiv

在大语言模型（LLMs）的对齐过程中，离线偏好优化（如 DPO）已成为提高效率的主流。然而，现有的方法大多遵循 Bradley-Terry (BT) 模型，这在现实场景中面临三大严峻挑战：对成对数据的依赖、训练分布偏移以及人类行为的"非理性"假设。

近日，北京通用人工智能研究院 (BIGAI) 联合 中国科学技术大学 团队，在 EMNLP 2025 发表了研究：UAPO (Adaptive Preference Optimization with Uncertainty-aware Utility Anchor)。该方法通过引入"效用锚点"，首次实现了对不确定偏好数据的稳健建模。

核心挑战

为什么现有偏好优化方法会"失灵"？

目前的偏好对齐方法（如 DPO, SimPO）在实际应用中遇到了瓶颈：

数据层面的成对约束

BT 模型强行要求"优-劣"成对数据，但在现实中，人类偏好往往是非对比性的。

优化层面的分布偏移

过度优化（Reward Hacking）导致模型在面对分布外（OOD）样本时产生不可靠的信号。

认知层面的理性假设

BT 模型假设人类是完全理性的效用最大化者，但这忽视了行为经济学中经典的"风险厌恶"和"不确定性"。

创新设计

UAPO：引入效用锚点（Utility Anchor）

UAPO 借鉴了行为经济学中的锚定效应（Anchoring Effect），引入了一个可学习的"效用锚点" $y_\bot$。

Utility Anchor Mechanism — 图1 图1：效用锚点（Utility Anchor）在偏好对齐中起到平衡优劣分布的作用

该框架具备以下核心优势：

解耦成对依赖

通过将目标函数拆解为单点形式，UAPO 允许模型直接从非成对数据中学习，显著提升了数据利用率。

感知不确定性

效用锚点能够捕捉标注过程中的模糊信号，并在理论上等同于在悲观强化学习（Pessimistic RL）中引入"不确定性惩罚"，防止模型陷入奖励陷阱。

更平滑的训练动态

相比 DPO，UAPO 在训练过程中表现出更低且更稳定的 KL 散度，更好地保留了预训练模型的原始能力。

实验表现

卓越的泛化能力与鲁棒性

研究团队在 Mistral、Llama-3 和 Gemma-2 等多种模型上进行了广泛验证，结果表明：

基准测试领先

在 AlpacaEval 2 和 Arena-Hard 上，UAPO 变体（如 SimUAPO）一致优于原始的 SimPO 和 DPO。在 Gemma-2-9B 上，SimUAPO 达到了 73.5% 的长度控制胜率（LC）。

无惧分布偏移

在 RewardBench 2 等 OOD 基准上，UAPO 表现出更强的迁移能力，尤其是在数学推理和安全性评估方面。

抵御数据噪声

即便在 40% 的偏好标注被随机翻转（噪声污染）的极端情况下，UAPO 的性能下降也远小于传统方法。

Performance of UAPO and SimUAPO — 图2 图2：UAPO和SimUAPO与现有主流方法的对比

展望

迈向可托付的对齐人工智能

UAPO 的发布不仅是算法上的优化，更是对"如何教 LLM 做出判断"的深刻洞察。对齐不应仅仅是"喂养"标准答案，更应是教会模型理解价值的尺度与不确定性的边界。

未来，团队将继续探索：

🔄

自监督对齐

利用效用锚点实现模型自我博弈与迭代。

🧩

复杂任务对齐

在长文本生成与复杂逻辑链中验证 UAPO 的有效性。

LLM 对齐偏好优化效用锚点不确定性

Authors

Xiaobo Wang^1,3, Zixia Jia³, Jiaqi Li³, Qi Liu^*1,2, Zilong Zheng^*3

¹ USTC, ² IAI, ³ BIGAI

^* 通讯作者.