合成数据正迅速从理论概念转变为驱动大语言模型(LLM)性能飞跃的关键因素。本文深入探讨了合成数据如何革命性地改变文本和代码生成、弥合低资源语言的差距,并提升模型在特定领域的适应性。我们将聚焦于利用合成数据取得突破性进展的代表性模型和框架,分析效率提升的案例,揭示人工智能发展的前沿趋势。

文本与代码生成的革命

大语言模型(LLM)在处理和生成语言方面拥有天然的优势,这项能力正被巧妙地用于创建高质量的合成数据,涵盖自然语言和编程代码,从而丰富各种应用程序。

在自然语言处理(NLP)领域,LLM 可以生成连贯、上下文准确且高度人性化的合成文本。这种能力使得为各种 NLP 任务定制广泛的合成数据集成为可能,包括文本分类、问答、对话生成,以及至关重要的训练模型以遵循指令的能力。例如,我们可以利用 LLM 生成各种风格的文章摘要、不同情感色彩的评论,甚至是模拟特定角色的对话,用于训练聊天机器人。

不仅限于自然语言,LLM 还在推动合成代码数据的兴起和快速增长,用于训练复杂的代码智能模型。该领域的技术包括提示 LLM 生成代码片段或完整的程序,通常使用特定的编程语言或针对特定任务。此过程的关键在于执行生成的代码以验证其功能正确性的能力,从而为质量控制提供直接的反馈循环。此外,LLM 被用于大规模合成编码指令数据,这对于训练能够理解和响应与编程相关的查询或协助软件开发的模型至关重要。应用范围包括合成编程问题及其解决方案的生成、旨在增强训练数据多样性的代码编辑的创建(例如,通过引入解决同一问题的不同方法),以及大型指令调整数据集(例如 Code Alpaca 和 WizardCoder)的组装。例如,可以使用 LLM 生成一段包含 bug 的代码,然后要求模型进行调试和修复,从而提升模型的代码修复能力。

该领域的一个关键突破是开发了用于自动验证生成代码的功能正确性的方法。这通常通过带有执行反馈的强化学习来实现,其中 LLM 根据其生成的代码是否编译并正确运行以解决给定的问题而获得奖励或惩罚。这种“问题-解决方案-检查-正确”模式允许创建新颖、大规模且重要的是可定量测试的合成数据集,专门用于编码和数学推理任务。与自然语言相比,代码的执行结果具有确定性,这使得合成代码数据的质量评估更加客观和高效。

合成代码数据的成功,特别是与自动验证方法相结合时,标志着一个重要的进步。与本质上可能含糊不清的自然语言(其质量评估通常涉及主观的人工判断)不同,代码具有确定性的执行特征:它要么按预期工作并产生正确的输出,要么不工作。这种确定性允许大规模地对合成数据的质量进行客观的自动化验证。 这种突破有效地弥合了 LLM 在更流畅的语言领域中的生成能力与代码和数学中固有的逻辑正确性的严格要求之间的差距。 “定量测试合成代码”的能力意味着这些领域的合成数据不仅可以模仿人类编写的代码中存在的现有模式,还可以促进创建新的、可验证的知识。 这导致 LLM 在定量任务上的性能得到快速且可衡量的提高,这与更多定性任务形成鲜明对比,在定性任务中,合成数据主要用于提炼、改写或多样化现有知识。

弥合差距:低资源语言与领域自适应

合成数据为高质量真实数据稀缺或不存在的情况提供了变革性的解决方案。这对于开发低资源语言的功能以及将预训练模型适应新的专门领域尤其有影响。

由于缺乏高质量的并行语料库(在语言对之间翻译的文本),世界上绝大多数语言的机器翻译 (MT) 系统的开发受到严重阻碍。LLM 生成的合成数据提供了一个突破性的机会,可以创建大量训练数据,即使在人工翻译资源几乎不存在的情况下也是如此。该领域突破性的进展表明,即使合成并行数据包含一定程度的噪声或不完善,也可以显着提高低资源语言的 MT 性能。例如,GPT-4o 已被用于为各种此类语言生成文档级别的合成并行语料库,包括巴斯克语、苏格兰盖尔语、格鲁吉亚语、索马里语和乌克兰语。性能指标表明,仅使用此合成数据训练的相对紧凑的 MT 模型(例如,具有 6060 万个参数)可以实现强大的基线性能(例如,英语-格鲁吉亚语的 ChrF 分数为 49.49,与 NLLB 模型在同一任务上的 48.31 ChrF 分数相当)。此外,对现有的 SOTA 系统(如 OPUS-MT、NLLB-200–1.3B 和 LLaMA-3B)使用此合成数据进行微调会持续产生显着改进,NLLB 的平均增益为 +2.95 ChrF,LLaMA-3B 的平均增益为惊人的 +20.63 ChrF。还发现此合成数据与现有人工翻译的语料库互补,从而在结合时带来进一步的收益。为了促进可重复性并进一步研究这个至关重要的领域,引入了名为 SynOPUS 的合成并行数据集的公共存储库。

合成数据对低资源语言的影响是深远的。从历史上看,语言资源方面的数字鸿沟极大地限制了人工智能技术对全球许多社区的覆盖范围和益处。合成数据提供了一种可扩展的途径来弥合这一差距,从而为现有数字足迹最少的语言开发功能性 MT 系统和其他 NLP 工具。这表明最初主要在高资源语言上训练的 LLM 现在可以充当知识和能力转化为语言服务不足的社区的有效渠道或“翻译器”,从而促进人工智能的开发和应用方面的更大包容性。即使“嘈杂”或不完善的合成数据也被证明对这些语言非常有用的观察结果强调了在这些情况下对任何数据的关键需求,将合成生成定位为全球人工智能开发和可访问性的强大推动者。

除了翻译之外,合成数据还在证明对领域自适应和泛化至关重要。它可用于创建针对特定领域(例如,法律、医学、金融)或特定数据特征(例如,文本的不同长度)量身定制的各种数据集,从而提高模型泛化到新的、未见过的数据分布的能力。例如,在自然语言推理 (NLI) 模型中,合成数据生成技术已被证明可以增强它们对全新下游测试设置的泛化能力,在某些情况下优于在现有的人工管理 NLI 数据集上训练的模型。这通常通过一系列旨在生成跨越不同领域和长度的高质量前提-假设对的 LLM 任务来实现。此外,LLM 可以生成针对特定领域的人工数据集,例如合成医疗病例记录或虚构的公司政策文件,以确保知识库或训练集中存在相关信息,从而帮助模型在专门的上下文中表现更好。例如,可以利用 LLM 生成大量的法律文书,用于训练法律领域的大模型,提高其在法律咨询、合同审查等方面的能力。

引领潮流的模型与框架

一些领先的模型和框架生动地展示了合成数据在实现 SOTA 性能方面的功效,而且通常具有令人惊讶的效率。

  • Microsoft Phi-4: 该系列模型采用“合成优先策略”,其中合成数据不仅仅是一种增强或后备,而是其训练机制的核心和优先特性。Phi-4 的开发涉及令人印象深刻的 4000 亿个高质量合成数据token,这些 token 通过 50 多个自定义数据管道生成。Phi-4 采用先进的合成数据生成技术,例如自我修订(模型批判和重写自己的输出以提高质量)、指令反转(从现有代码片段生成合理的原始提示或指令)和多数过滤(利用多个生成的输出和潜在的众包信号来确定正确性或首选样式)。Phi-4 挑战了 LLM 扩展中长期存在的“越大越好”的范式。它已被证明在有针对性的基准测试中,尤其是在需要数学推理和基于逻辑的问题解决的基准测试中,明显优于更大的模型(有时是其尺寸的 3-5 倍)。例如,Phi-4(一个具有 140 亿个参数的模型)在 MATH(竞赛)基准测试中实现了 80.4%,在 HumanEval(代码生成)中实现了 82.6%,这表明其性能与 LLaMA-3–70B 等更大的模型竞争甚至超过了这些模型。一个较小的变体 Phi-4-mini-reasoning(具有 38 亿个参数)也在数学基准测试中优于比它大两倍的模型。
  • DeepSeek R1: 这是一个在 DeepSeek V3 Base 上训练的 6710 亿参数模型,它非常强调增强思维链 (CoT) 推理能力。CoT 推理涉及提示模型生成一系列中间步骤来解决复杂问题,模仿类似人类的推理过程。DeepSeek R1 实现了与 OpenAI 的 o1 模型相当的性能,但创建和使用成本却显着降低(据报道,创建成本降低约 30 倍,使用成本降低 25 倍)。这种卓越的成本效益归因于模型蒸馏(可能使用强大的教师模型)、使用合成数据进行有针对性的 CoT 推理训练以及强化学习增强训练的复杂组合。该模型擅长数学和逻辑推理任务,在 AIME 2024(一项具有挑战性的数学竞赛)中获得 79.8%,在 MATH-500 中获得 97.3%,并在 Codeforces 编程竞赛平台上排名前 3.7%。DeepSeek R1 通过利用高质量的合成数据,成功地在成本效益和性能之间取得了平衡。
  • InstructLab (Red Hat/IBM Research): InstructLab 的主要目标是克服 LLM 指令调整中的可扩展性挑战,从而使社区和组织能够根据其特定需求定制模型。它的方法利用一种基于合成数据的对齐调整方法,该方法以“精心设计的分类法”为指导,这些分类法充当“合成种子”。它采用一种多阶段调整框架,旨在有效地吸收新知识,同时防止灾难性地忘记先前学习的能力。InstructLab 值得注意的是其社区驱动的特性,它通过 Git 存储库和简化的 YAML 输入格式来利用贡献,这使得训练数据和模型技能能够不断更新和发展。使用 Mixtral-8x7B-Instruct 作为教师模型,使用 LAB 方法训练的 IBM Labradorite-13b 和 Merlinite-7b-lab 模型的性能结果表明,它们可以与 SOTA 聊天机器人竞争,并且与主要基于人工生成的数据对齐的模型相比,甚至优于那些在来自不太结构化的方法(例如 Orca-2)的更多合成数据上训练的模型。具体来说,Granite-7b-lab 实现了 6.69 的 MTBench(平均)分数和 51.91 的 MMLU(5-shot)分数。
  • Stanford Alpaca: 该模型通过有效地将开源 LLaMA 7B 模型与用于生成指令跟随数据的 Self-Instruct 方法相结合,标志着早期的突破。Alpaca 7B 的开发成本不到 600 美元,但在遵循各种人类指令的能力方面表现出显着改进,在人类评估者进行的盲法成对评估中,针对更大的 text-davinci-003 赢得了 90 与 89 次比较。

Phi-4、DeepSeek R1 等模型和 InstructLab 等框架的令人印象深刻的性能说明了 LLM 开发中一个显着且具有战略意义的转变。人们明显地不再主要依赖于蛮力数据扩展(即,简单地获取和训练数量越来越多的原始的、通常未经过滤的真实世界数据),而是转向一种更细致的“智能数据设计”策略。这些领先的努力不仅仅是消耗大量数据;它们有策略地创建和管理合成数据,并考虑到特定的学习目标和所需的模型能力。Phi-4 的“合成优先策略”和 InstructLab 的“分类法驱动的数据管理”是这种方法的典型例子。这一趋势表明,未来的 LLM 开发将越来越多地涉及复杂的数据工程、课程学习原则以及对合成数据集的细致的质量控制,其中合成数据的质量、结构和有针对性的性质变得与原始数据的庞大数量同样重要,甚至更重要。这使得更小、更高效的模型能够通过以更集中和有针对性的方式学习,而不是简单地处理更多未区分的信息,从而实现不成比例的高性能。

扩展法则与大模型训练的新经济学

合成数据的数量、模型大小和由此产生的性能之间的关系是当前研究的一个关键领域,对计算效率和 LLM 开发的总体经济性具有重大影响。合成数据正迅速成为有机预训练语料库的可扩展且可能更可靠的替代方案,从而为持续的模型改进提供了可行的途径,尤其是在高质量的真实数据源日益枯竭或受到使用限制的情况下。

SynthLLM 项目应用于数学推理领域的研究表明,在各种模型大小中,合成数据始终遵循修正后的缩放法则。这意味着,在一定程度上,增加合成训练数据的数量会导致模型性能的可预测改进。但是,这些观察结果也表明存在收益递减。一旦合成数据的数量超过某个阈值(例如,在某些实验中约为 3000 亿个 token),添加更多合成数据带来的性能提升可能开始趋于平缓。此外,模型大小本身的影响在这些缩放动态中也很明显:与较小的模型相比,较大的模型(例如,具有 80 亿个参数的模型)往往更快地达到其最佳性能(例如,大约 1 万亿个合成数据token)(例如,一个 30 亿参数的模型可能需要 4 万亿个 token 才能在类似数据上实现其峰值性能)。

生成合成数据(尤其是在使用大型教师模型进行蒸馏时)会涉及大量的计算成本。这些成本主要与教师模型为生成合成示例而执行的推理计算相关。构建新模型的过程现在需要“难以置信的推理量,而不仅仅是训练”。这表明 LLM 开发管道中的计算瓶颈所在的位置发生了根本性转变。因此,提高合成数据生成成本效益的策略至关重要:

  • QWICK(Question-Wise 模型 pICK): 这种创新方法解决了合成数据生成中固有的成本-质量权衡问题。它通过根据经验奖励信号(生成数据的质量)、使用每个可用模型的已知成本以及为每个问题进行的试验或尝试次数,动态选择要用于为特定问题或任务生成数据的 LLM 来工作。QWICK 已证明能够在生成编程和数学数据集时降低 40-50% 的成本,而不会影响数据的质量。在某些情况下,与使用单个固定模型进行生成的基线方法相比,它以相同的成本生成了多达 2.1 倍的有效数据。
  • InstructLab: 如前所述,该框架还旨在通过使可能不是数据科学家的主题专家能够通过简化的界面为数据生成过程做出贡献来提高成本效益。其分阶段调整方法也有助于有效吸收知识。

针对合成数据观察到的缩放法则揭示了计算资源、数据数量和模型性能之间微妙的相互作用。虽然生成更多合成数据通常会导致性能提高,但超过某些阈值后收益递减的明确证据表明,无限期地简单增加合成数据的量并不总是最有效或最具策略性的方法。相反,优化合成数据的质量、多样性和有针对性的性质对于最大限度地提高计算效率并针对给定的计算预算实现最佳的模型性能至关重要。这一观察结果进一步强化了 LLM 训练中“智能数据设计”的概念,并表明未来的研究可能会侧重于确定合成数据的最佳“数据-计算前沿”,即分配计算资源以生成在模型能力方面产生最高回报的数据的最有效方法。

“推理现在是训练的一部分”的认识标志着 LLM 开发的计算格局发生了重大转变。传统上,训练阶段本身(即通过反向传播更新模型权重的过程)是迄今为止资源最密集的方面。但是,随着大规模合成数据生成的出现,尤其是通过模型蒸馏,与运行强大的教师模型以创建训练数据相关的推理成本现在代表着主要的,在某些情况下是主要的,计算负担。这意味着高效推理技术的进步——例如模型量化、稀疏注意力机制、推测解码和优化的硬件——不仅对于高效部署 LLM 变得越来越重要,而且对于训练和开发依赖于合成数据的下一代模型的过程也是如此。

总之,合成数据正引领大模型技术走向新的纪元。通过革新文本和代码生成,弥合低资源语言的鸿沟,并赋能领域自适应,合成数据正在重塑人工智能的未来。随着“智能数据设计”理念的日益普及,以及对计算效率和成本效益的不断追求,我们有理由相信,合成数据将在塑造下一代大模型的过程中扮演更加关键的角色。