自我奖励训练 (SRT): 大语言模型 (LLM) 通过多数投票实现自我改进,及其潜在风险
大语言模型 (LLM) 正在不断突破人工智能的边界,尤其是在数学等复杂的推理任务中。然而,要实现这一突破,需要海量的训练数据。随着计算资源的持续扩展,高质量、人工生成的数据的可用性正日益成为一个重要的瓶颈。本文将深入探讨自我奖励训练 (SRT) 的概念,这是一种新型的训练方法,允许 LLM 在无需过多人工干预的情况下,通过多数投票机制进行自我改进,但同时也要警惕其潜在的风险。 数据瓶颈与传统 LL