大语言模型（LLM）是如何工作的？从原理到实践的深度解析

大语言模型（LLM）正在改变我们与技术的互动方式，从撰写邮件到生成代码，它们无处不在。然而，这些看似智能的系统究竟是如何运作的？本文将基于对 Medha Mittal 文章的解读，深入探讨 LLM 的工作原理，从其核心概念、构建过程到未来的发展趋势，帮助你全面理解这项颠覆性技术。文章将围绕 LLM 的定义，Tokenization ，训练过程以及 LRM 展开讨论。

1. 大语言模型的定义与本质：预测的艺术

什么是大语言模型？简单来说，LLM 是一种经过训练的神经网络，能够理解和生成自然语言文本。其核心在于“大”—— 庞大的参数量，这些参数可以理解为模型内部的“神经元”，数量通常达到数十亿甚至数万亿。例如，GPT-3 拥有 1750 亿个参数，比银河系中的恒星数量还要多！

然而，一个令人不安的事实是：LLM 并不真正“理解”任何东西。它们没有推理能力、没有意识，更没有数字意识。它们所做的一切，都是基于文本中的统计模式预测下一个最有可能出现的词语。可以把 LLM 想象成一个超级强大的自动完成系统。就像文章中例子所展示的，当输入“Once upon a…”时，LLM 会根据其在海量文本数据中学习到的模式，预测下一个词是“time”。

这种预测能力是 LLM 的基石。无论是生成一篇论文、编写一段代码，还是创作一首诗歌，都是通过一个词一个词地预测和生成来实现的。理解这一点至关重要，因为这揭示了 LLM 的局限性，以及我们应该如何正确地使用它们。

2. 从文本到数字：Tokenization 的关键作用

在 LLM 能够处理文本之前，必须将其转化为数字形式。这个过程称为 Tokenization。 Tokenization 将文本分解为更小的单元，例如单词、子词或字符，并将每个单元映射到一个唯一的数字标识符，即 Token。

例如，对于句子 “What is the capital of France?”， Tokenization 可能会将其分解为以下 Token 序列：[1841, 318, 262, 3139, 286, 4881, 30]。每个数字代表一个特定的单词或符号。在 GPT-4 中，存在 100,277 个可能的 Token。

Tokenization 的质量直接影响 LLM 的性能。如果 Tokenization 不当，可能会导致模型无法正确理解文本的含义。例如，如果将 “France” 分解为 “Fran” 和 “ce” 两个 Token，模型可能无法将其识别为国家名称。

Tiktokenizer 是一个流行的 Tokenization 工具，可以帮助我们了解文本是如何被分解为 Token 的。通过使用 Tiktokenizer，我们可以更好地理解 LLM 的输入，并优化我们的提示（Prompt）以获得更好的结果。

3. 三阶段训练之旅：从海量数据到智能对话

构建 LLM 本质上就是大规模的机器学习。类似于预测房价，需要大量的数据（例如房屋面积、地理位置、卧室数量）和一个基本模型来学习粗略的模式（例如房价随面积增加）。LLM 遵循完全相同的框架——只是它们预测的是下一个词，而不是价格。

LLM 的训练过程通常分为三个阶段：

阶段 1：数据盛宴 (Pre-Training)

在这一阶段，LLM 被投喂了几乎人类所写的所有文本数据，包括：
- 整个互联网（包括各种论坛）
- 数百万本书籍（从莎士比亚到儿童读物）
- 研究论文
- 社交媒体帖子
- 代码仓库（例如 GitHub）
互联网包含超过 180 Zettabyte 的数据（1 Zettabyte = 1 万亿 Gigabyte）。即使只有 10% 是文本，那也是 18 Zettabyte 的潜在训练材料。但是原始互联网数据存在许多问题，例如格式错误、质量低下、包含垃圾信息和错误信息。因此，需要对数据进行清洗和过滤，以确保训练数据的质量。

OpenAI 的 GPT-3 研究揭示了他们的数据优先级策略。虽然他们使用了 570GB 的数据，但他们对不同来源的数据进行了加权：

| 数据来源 | 加权比例 |
| :————— | :——- |
| CommonCrawl | 0.6 |
| WebText2 | 1 |
| Books1 | 1 |
| Books2 | 1 |
| Wikipedia | 3 |

从上表可以看出，模型在较小但质量更高的数据集（如 Wikipedia）上花费了更多训练时间，而不是在庞大但嘈杂的 CommonCrawl 数据上。这说明了数据质量的重要性。
阶段 2：学习变得有用 (Instruction Fine-Tuning)

经过第一阶段的训练，LLM 已经具备了生成文本的能力，但它还不能很好地理解人类的指令。如果你问它“你叫什么名字？”，它可能会回答“你最喜欢的颜色是什么？生命的意义是什么？”——因为这正是它在训练期间看到的文本序列。

因此，需要进行微调 (Fine-Tuning)。微调是指使用专门的数据集对预训练模型进行进一步训练，以使其更擅长于特定任务。对于 LLM 来说，微调通常是使用大量高质量的问答对进行训练，以使其能够更好地理解人类的指令并生成有用的回复。

例如：
- 微调前 (Base Model):
  - 人类: “如何烤巧克力蛋糕？”
  - Base Model: “如何烤香草蛋糕？如何烤红丝绒蛋糕？烤蛋糕需要什么配料？为什么人们喜欢蛋糕？蛋糕的历史可以追溯到古埃及…”
- 微调后：
  - 人类: “如何烤巧克力蛋糕？”
  - Fine-tuned Model: “这里有一个简单的巧克力蛋糕食谱：配料：- 2 杯通用面粉 – 2 杯糖说明：等等。”
微调主要分为两种类型：
- 指令/对话微调：旨在教会模型遵循指令、面向任务并参与对话。
- 特定领域微调：旨在使模型适应特定领域（例如医学、法律、编程）。
阶段 3：人类的润色 (RLHF – Reinforcement Learning from Human Feedback)

即使经过微调，LLM 的回复有时仍然会显得过于机器人化，或者会胡编乱造。为了解决这些问题，需要使用人类反馈进行强化学习 (RLHF)。

RLHF 的过程如下：
1. 对于相同的提示，生成多个回复。
2. 人类评估员对回复的质量进行排名。
3. 训练一个奖励模型来预测人类的偏好。
4. 使用强化学习来优化模型，以生成排名更高的回复。
RLHF 可以帮助 LLM 学习更细致的人类沟通技巧，例如：
- 提供真正有用的回复，而不是机器人式的回复。
- 礼貌地拒绝不适当的请求。
- 在适当的时候承认不确定性。
- 以周到的方式处理有争议的话题。

4. 从 LLM 到 LRM：推理能力的进化

近年来，出现了大型推理模型 (LRM)，例如 OpenAI 的 o1/o3、DeepSeek-R1、Claude 3.5 Sonnet 和 Gemini 2.0 Flash Thinking。

可以将 LRM 视为具有内部独白的 LLM——结构化、审慎且冗长。例如，当被问及量子力学时，LRM 可能会进行以下内部推理：

“让我逐步思考一下…如果用户问的是量子力学，我应该：

从基本概念开始。
使用他们可以理解的类比。
避免使用压倒性的技术术语。
检查我的解释是否合乎逻辑…”

这种内部推理模仿了人类解决问题的方式。 LRM 还采用了额外的微调步骤，例如：

Chain-of-Thought Prompting: 显式的逐步思考。
Reinforcement Learning with Verifiable Rewards: 奖励正确的推理过程。
Self-Verification: 模型检查自己的工作。
Rejection Sampling: 过滤掉薄弱的逻辑链。

5. LRM 的局限性：思考的幻觉？

尽管 LRM 在某些任务上表现出色，但苹果的研究表明，它们并不总是真正地进行推理。

苹果的研究人员使用受控的谜题环境（汉诺塔、跳棋、过河）测试了 LRM 是否真正地进行推理。他们的研究结果表明：

存在三个不同的机制：
- 低复杂度： 标准 LLM（没有“思考”）实际上表现更好——它们更快、更有效。
- 中等复杂度： LRM 显示出优势；它们的推理有助于避免陷阱和死胡同。
- 高复杂度： 两种类型的模型都崩溃了。没有正确的解决方案。甚至不接近。
推理悖论： 随着问题变得更加困难，模型用于推理的 Token 减少了——即使 Token 预算允许更多。就像他们在最重要的时候放弃了思考。
过度思考是真实存在的： 在简单的任务中，LRM 通常很早就找到了正确的解决方案，但仍然继续推理，探索错误的答案。这是浪费计算资源。
算法执行失败： 即使给模型正确的算法来解决一个谜题（例如汉诺塔），它们仍然会在几个步骤后失败。这突出了一个主要的局限性：LLM——即使是推理变体——也很难进行精确的符号执行。

6. 结论：LLM 的合成能力与未来展望

总而言之，LLM 通过大规模的预训练、微调和人类反馈，学会了生成连贯的文本，并在特定领域内表现出一定的智能。尽管它们并不真正“理解”或“思考”，但它们擅长于合成和呈现其训练数据中的共识观点。

它们非常擅长于给你提供大量已接受知识的平均值——将大量信息提炼成连贯、结构良好的回复。

虽然还有很多工作要做，但 LLM 已经成为一个强大的工具，可以帮助我们解决各种问题。随着技术的不断发展，我们可以期待 LLM 在未来发挥更大的作用。

你觉得呢？了解 LLM 的工作原理是让你对它们印象更深刻，还是更不深刻了？分享你的想法——我很乐意听到这如何改变你对人工智能的看法。

大语言模型（LLM）是如何工作的？从原理到实践的深度解析