从预训练到策略优化:大型语言模型 (LLM) 如何实现与人类意图对齐
大型语言模型 (LLM) 的发展,如 GPT-4、Claude 和 Gemini,涉及一个多阶段的过程。从宏观层面看,包括预训练 (Pretraining)、后训练 (Post-training),以及更高级的优化方法,如 PPO (Proximal Policy Optimization)、DPO (Direct Preference Optimization) 和 GRPO (Generali