直接偏好优化(DPO)与简单偏好优化(SimPO)论文解析
(Direct Preference Optimization,简称DPO)和简单偏好优化(Simple Preference Optimization,简称SimPO)。这两种方法都是无需强化学习(Reinforcement Learning,简称RL)的对齐优化技术。
(Direct Preference Optimization,简称DPO)和简单偏好优化(Simple Preference Optimization,简称SimPO)。这两种方法都是无需强化学习(Reinforcement Learning,简称RL)的对齐优化技术。