SimPO

直接偏好优化（DPO）与简单偏好优化（SimPO）论文解析

llmtrend 2025年3月19日没有评论

（Direct Preference Optimization，简称DPO）和简单偏好优化（Simple Preference Optimization，简称SimPO）。这两种方法都是无需强化学习（Reinforcement Learning，简称RL）的对齐优化技术。

从预训练到策略优化：大型语言模型 (LLM) 如何实现与人类意图对齐

Spring AI赋能：利用工具调用（Tool Calling）构建更强大的大语言模型应用

AI 内容捷径：为什么过度依赖 AI 写作会损害你的 WordPress 网站 SEO？

2025年值得关注的五大 Agentic AI框架：迎接自主智能新时代