大语言模型“记忆”大揭秘：3.6比特/参数的真相、隐私风险与炼丹策略

大语言模型（LLM）拥有令人惊叹的文本生成能力，但它们究竟是如何“学习”的？它们是否真的像一个大型数据库一样存储了所有训练数据？Meta、DeepMind、Cornell和NVIDIA的一项最新研究表明，Transformer模型能存储的信息量远低于人们的普遍认知，大约是每个参数3.6比特。这个数字看似不起眼，却能解释双重下降现象、Grokking现象的成因，并帮助我们评估LLM的隐私风险。本文将深入探讨这项研究背后的科学原理，并探讨其对工程师、隐私团队以及法律政策制定者的实际意义。

1. 记忆的意义：为何 LLM 记忆能力至关重要？

大语言模型 (LLM) 能够完成电子邮件、编写代码，有时甚至能逐字重复网络上晦涩的内容，这常常引发人们的疑问：它们是否只是简单地“记忆”了这些内容？这个问题不仅仅是一个哲学思辨，其答案直接影响到：

隐私审计：ChatGPT 是否可能泄露公司的机密文档？
版权法：模型是“学习”还是仅仅“存储”了你的作品？
缩放策略：你是否过度拟合了小型数据集？

过去，我们用于解答这些问题的工具要么过于粗糙（例如，提取攻击），要么过于理论化（例如，差异隐私界限）。但是，一篇新的论文《How Much Do Language Models Memorize? (2025)》为我们提供了一种更佳的方案：一个具体的、可量化的衡量 LLM 记忆能力的标准：每个参数约 3.6 比特。利用这个标准，我们可以得出一个出人意料的简洁理论，用于解释 Grokking、过度拟合以及记忆发生的具体情况。

案例：假设一家律师事务所正在使用一个基于 LLM 的工具来处理法律文件。如果该模型记忆了之前处理过的客户的个人信息，那么就可能在处理其他客户的案件时无意中泄露这些信息，从而造成严重的隐私风险。理解 LLM 的记忆能力上限有助于律师事务所评估并降低这种风险。

2. 记忆的本质：压缩即知识

传统的记忆定义往往存在缺陷。基于提示的测试（例如，要求 GPT 重复训练字符串）可能会产生误导——仅仅因为模型可以生成字符串并不意味着它记忆了该字符串。成员推理显示了统计泄漏，但无法确定这是泛化还是存储。差异隐私在训练算法层面起作用，但不适用于已经部署的冻结模型。

研究人员提出了一个更好的视角：压缩。如果一个模型能比预期更好地帮助你压缩一个数据点，那么它可能记忆了该数据点。他们使用了来自柯尔莫哥洛夫复杂性和信息论的思想：

一个字符串的真实复杂性 = 如果你知道真实数据分布所需的比特数。
一个模型的记忆 = 它给你的额外压缩，超出泛化可以解释的范围。

简而言之：记忆 = 过度压缩。

案例：假设我们有一个包含大量重复句子的文本数据集。一个能够很好地泛化的模型能够识别这些重复模式，并用更短的编码来表示它们。而一个记忆能力强的模型可能会直接存储每个句子，导致过度压缩。通过比较模型的压缩效率与理论最佳压缩效率，我们可以估计其记忆程度。

3. 容量测量：每个参数 3.6 比特

为了量化记忆，研究人员从头开始训练了超过 100 个 GPT 风格的模型，参数范围从 50 万到 15 亿。他们进行了两个主要的实验：

合成数据：没有模式的随机比特字符串，因此任何学习都是纯记忆。
真实文本 (FineWeb)：去重 Web 数据 (FineWeb)，泛化可能出现。

跨模型大小和数据集，出现了一个清晰的模式：

模型容量饱和在每个参数约 3.6 比特（使用 bfloat16 权重）。
将精度提高到 fp32 只能将该容量略微提升到约 3.8 比特。

这…并不多。一个 10 亿参数的模型有约 450MB 的“记忆存储”。不足以存储维基百科——但如果你不小心，也足够存储秘密。

类比：每个参数就像一个乐高积木。你可以在上面附加信息，但仍然受到积木大小的限制。

数据：研究表明，无论模型大小如何，每个参数的记忆容量都稳定在 3.6 比特左右。这意味着，如果一个模型的参数数量翻倍，其潜在的记忆容量也会翻倍，但每个参数的记忆效率并不会提高。

4. Grokking 与双重下降：记忆容量的限制

如果你训练过深度模型，你可能见过这种奇怪的模式：

双重下降：随着你提供更多数据：

训练损失下降
测试损失上升（过度拟合！）
测试损失再次下降（不知何故？）

Grokking 并不是魔法——它是记忆达到极限时发生的事情。该论文使用容量对这种现象给出了清晰的解释：

阶段 1：容量不足。模型记忆所有它可以记忆的内容。训练损失下降。测试损失上升。
阶段 2：达到容量。模型无法存储所有内容。两种损失都变得更糟。这是过度拟合的峰值。
阶段 3：超出容量。记忆崩溃，模型被迫泛化。它开始找到共享结构——语法、逻辑、模式——测试损失得到改善。这就是 Grokking。

关键点：Grokking 并不是魔法——它是一种压缩阶段的转变。模型从死记硬背的存储转变为高效的表示。而这种转变发生在：

数据集比特 ≈ 模型比特 (≈ 3.6 × #params)

案例：想象一个学生正在准备考试。在复习初期，学生可能会试图记住所有的知识点，导致考试时只能生搬硬套。随着复习的深入，学生开始理解知识点之间的联系，形成一个更抽象、更泛化的理解，从而在考试中能够灵活运用知识。Grokking 就像学生从死记硬背到理解的转变。

数据：双重下降现象通常出现在数据集大小接近模型容量的时候。这意味着，当模型无法记住所有的数据时，它就开始学习数据的内在结构，从而实现更好的泛化性能。

5. 隐私保护：量化最坏情况的风险

这种容量限制为我们提供了最坏情况风险的硬性数字。例如：

一个 70 亿参数的模型有约 25 千兆比特的存储空间 → 约 3.2GB。
这足以记忆数百万个独特的秘密——但如果你正在使用数十亿个 token 进行训练，则不足以记忆你的整个数据集。

成员推理缩放定律：该论文将 sigmoid 函数拟合到攻击成功率：

当 token/参数 > 100 时，F1 分数降至偶然水平 (~0.5)。

因此，如果你正在使用 1 万亿个 token 和一个 100 亿参数的模型进行预训练？你可能没问题。但如果你正在使用一个 10 亿参数的模型在一个 500 万 token 的专有语料库上进行微调？风险很高。

案例：一家公司正在使用一个 LLM 来分析客户的反馈数据。如果该公司使用的数据集包含大量的个人身份信息（PII），并且模型的参数数量不足以记住所有的数据，那么攻击者可能会利用成员推理攻击来确定哪些客户的数据被用于训练模型，从而造成隐私泄露。

数据：研究表明，当训练数据中每个参数的 token 数量超过 100 时，成员推理攻击的成功率会显著降低。这意味着，为了降低隐私风险，我们需要使用足够大的数据集来训练模型。

6. 什么会被记忆？稀有内容

研究人员发现，当模型必须选择存储什么时，它们会囤积最奇怪的比特：

稀有 token
外语脚本
UUID 和电子邮件地址
具有唯一变量名的代码

实际上，TF-IDF（词频 – 逆文档频率）经验法则：

高 TF-IDF → 高记忆风险

因此，如果你将生产日志、内部 ID 或小众语言粘贴到提示或微调中？这些内容最先被记住——也是聪明的攻击者可能首先提取的内容。

案例：如果一个 LLM 被用于生成代码，并且训练数据中包含大量的带有特定公司内部变量名的代码，那么该模型可能会记住这些变量名，并在生成的代码中无意中使用它们，从而暴露公司的知识产权。

数据：研究表明，具有高 TF-IDF 值的 token 更容易被模型记住。这意味着，我们需要特别注意训练数据中出现的稀有 token，并采取相应的措施来降低隐私风险。

7. 实用建议

对于工程师

瞄准 ≥100 个 token/参数以减少过度拟合和记忆
量化到 8 比特？没问题。你不会删除太多内存。
在训练或微调之前进行积极的去重
避免对私有数据进行小型微调，除非你控制记忆

对于隐私团队

使用比特/参数 × #参数来估计最坏情况的泄漏
将红队测试和审计重点放在低频伪影上
超越 DP 预算——容量是一个更简单、通常更直观的界限

对于法律与政策人员

LLM 不会复制它们看到的所有内容——它们实际上不能
对“他们记住了我的整本小说”的笼统恐惧在统计上是不切实际的——除非你的小说是训练集中唯一的东西

工程实践：

数据清洗：在训练 LLM 之前，彻底清洗数据，移除敏感信息，如个人身份信息 (PII)。
差分隐私：在训练过程中应用差分隐私技术，限制模型对训练数据的记忆能力。
知识蒸馏：使用较小的、更易于管理的模型来模拟大型 LLM 的行为，从而降低记忆风险。

隐私保护措施：

访问控制：限制对 LLM 的访问权限，只允许授权人员使用模型。
监控与审计：定期监控 LLM 的使用情况，并进行安全审计，以检测潜在的隐私泄露。
用户教育：教育用户在使用 LLM 时要注意保护个人信息，避免输入敏感数据。

8. 最终思考：有限的记忆，更好的理解

这篇论文将落在 2025 年计算机科学的某个位置：

LLM 不会记住所有内容。它们会记住它们必须记住的内容，泛化它们可以泛化的内容，并丢弃其余内容。

这些模型很强大，是的——但也受到有限的、可量化的限制的约束。现在，我们有数字来证明这一点：

每个参数 3.6 比特。

不是炒作。不是恐惧。只是数学。理解 LLM 的记忆机制，有助于我们更有效地利用它们，并降低潜在的隐私风险。未来的研究方向包括：探索不同模型架构的记忆容量差异、研究如何动态地控制 LLM 的记忆行为，以及开发更有效的隐私保护技术。

理解大语言模型的记忆本质、隐私风险以及容量限制，对于推动大模型技术的健康发展至关重要。只有建立在清晰认知基础之上的技术，才能真正服务于社会。

大语言模型“记忆”大揭秘：3.6比特/参数的真相、隐私风险与炼丹策略