大模型技术详解（三）：从 Token 到训练 —— 基础 LLM 如何学习

大模型（LLM）技术正以惊人的速度发展，驱动着人工智能领域的诸多突破。本文作为大模型技术详解系列文章的第三部分，将聚焦于Token化这一关键环节，并深入探讨一个从零开始的基础 LLM 是如何学习的。我们将解析原始文本如何转化为数值，Token化的重要性，以及一个 LLM 在首次训练时究竟学习了什么。本文旨在帮助读者理解 LLM 从一无所知到生成文本的过程，以及为何即使是最大的模型也始于预测下一个 Token。

Token化：文本转化为数值的桥梁

Token化是 LLM 学习的基石，它将非结构化的原始文本转化为模型可以理解和处理的数值形式。想象一下，计算机并不能直接“理解”文字，它只能处理数字。因此，我们需要一种方法将文字转换成数字，这就是 Token化 的作用。

Token化 的过程通常包括以下步骤：

定义词汇表 (Vocabulary): 首先，我们需要创建一个词汇表，包含模型需要识别的所有 Token。Token 可以是单词、词根、标点符号，甚至是单个字符。词汇表的大小直接影响模型的表达能力和计算效率。例如，一个包含5万个 Token 的词汇表意味着模型需要处理5万个不同的数值标识。
- 示例: 一个简单的词汇表可能包含：["the", "quick", "brown", "fox", "jumps", "over", "lazy", "dog"]。
分割文本 (Segmentation): 将原始文本分割成 Token。分割的方式有很多种，例如基于空格分割、基于词根分割 (WordPiece)、或基于字节对编码 (Byte-Pair Encoding, BPE)。不同的分割方式会影响 Token 的长度和数量，进而影响模型的性能。
- 示例: 对于句子 “The quick brown fox jumps over the lazy dog.”，如果基于空格分割，则会得到 9 个 Token。如果采用 BPE 方法，可能会将 “jumps” 分割成 “jump” 和 “s” 两个 Token，以处理未登录词 (out-of-vocabulary, OOV) 问题。
分配 ID (ID Assignment): 为每个 Token 分配一个唯一的数字 ID。这个 ID 将作为模型输入，代表该 Token。
- 示例: 将词汇表中的每个 Token 映射到一个唯一的 ID：{"the": 1, "quick": 2, "brown": 3, "fox": 4, "jumps": 5, "over": 6, "lazy": 7, "dog": 8}。
转换为数值序列 (Numerical Sequence): 将原始文本转换为由 Token ID 组成的数值序列。
- 示例: 句子 “The quick brown fox jumps over the lazy dog.” 将被转换为：[1, 2, 3, 4, 5, 6, 1, 7, 8]。

Token化 方法的选择至关重要。例如，BPE 方法能够有效地处理未登录词问题，因为它能够将未登录词分解成已知的子词单元。这意味着即使模型没有见过某个完整的单词，它仍然可以通过组合已知的子词单元来理解该单词的含义。此外，不同的 Token化 工具包（例如 Hugging Face 的 Transformers 库中的 Tokenizer）提供了各种预训练的 Token化 模型，这些模型已经在大量文本数据上进行了训练，可以直接用于 LLM 的训练。

Token化的重要性：影响模型性能的关键因素

Token化 不仅仅是一个简单的文本转换过程，它直接影响 LLM 的性能。一个好的 Token化 方案可以提高模型的效率、准确性和泛化能力。

效率: Token 的长度和数量直接影响模型的计算量。较短的 Token 意味着更长的序列，需要更多的计算资源。然而，过长的 Token 可能会丢失一些细粒度的信息。因此，需要在效率和信息保留之间进行权衡。
准确性: Token化 方法会影响模型对文本的理解。例如，如果 Token化 将 “bank” 和 “Bank” 视为不同的 Token，模型可能无法理解这两个词具有相同的含义。因此，需要选择能够正确处理大小写、标点符号和特殊字符的 Token化 方法。
泛化能力: Token化 方法会影响模型对未登录词的处理能力。如果 Token化 无法处理未登录词，模型将无法理解包含这些词的文本。因此，需要选择能够有效地处理未登录词的 Token化 方法，例如 BPE。

实际案例:

WordPiece vs. Byte-Pair Encoding (BPE): BERT 使用 WordPiece Token化，而 GPT 使用 BPE Token化。WordPiece 倾向于将单词分割成最常用的子词单元，而 BPE 则倾向于将单词分割成出现频率最高的字节对。这两种方法在处理未登录词方面都表现良好，但 BPE 在处理罕见字符和符号方面可能更胜一筹。
SentencePiece: SentencePiece 是一种与语言无关的 Token化 工具，它可以直接处理原始文本，而无需进行预处理，例如空格分割。这使得 SentencePiece 非常适合处理多语言文本和没有明显空格分隔的语言，例如中文和日文。

选择合适的 Token化 方案需要根据具体的应用场景和数据特征进行权衡。在实际应用中，可以尝试不同的 Token化 方法，并通过实验评估它们的性能。

基础 LLM 的首次训练：预测下一个 Token

一旦文本被 Token化，我们就可以开始训练基础 LLM。一个基础 LLM 的核心任务是预测序列中的下一个 Token。这个过程可以简单概括为：给定一个 Token 序列，模型预测下一个最可能的 Token。

训练过程:

准备训练数据: 将大量文本数据进行 Token化，得到由 Token ID 组成的数值序列。这些序列将被用于训练模型。
构建模型架构: 选择合适的模型架构，例如 Transformer 模型。Transformer 模型是一种基于自注意力机制的神经网络，它能够有效地处理长序列的依赖关系。
初始化模型参数: 随机初始化模型的参数。这些参数将在训练过程中不断调整，以使模型能够更好地预测下一个 Token。
训练模型: 将训练数据输入模型，让模型预测下一个 Token。模型将预测结果与实际的下一个 Token 进行比较，计算损失函数 (loss function)，并使用反向传播算法调整模型参数，以减小损失函数的值。
- 示例: 给定序列 [1, 2, 3, 4]，模型需要预测下一个 Token。如果实际的下一个 Token 是 5，而模型预测的概率分布是 [0.1, 0.2, 0.1, 0.1, 0.5]，则模型预测正确的概率为 0.5。
评估模型: 使用验证数据集评估模型的性能。验证数据集包含模型没有见过的数据，可以用于评估模型的泛化能力。

LLM 学习的内容:

在训练过程中，LLM 学习到的不仅仅是下一个 Token 的概率分布，更重要的是学习到了语言的结构和规律。例如，模型会学习到：

语法规则: 例如，句子结构、词性搭配等。
语义关系: 例如，同义词、反义词、上下文关系等。
世界知识: 例如，事实、常识、逻辑推理等。

为什么从预测下一个 Token 开始？

从预测下一个 Token 开始训练 LLM 是一种自监督学习方法。这意味着我们不需要人工标注数据，而是可以直接从原始文本中学习。这种方法使得我们可以利用大量的无标签数据来训练模型，从而提高模型的性能。

实际案例:

GPT 系列模型: GPT (Generative Pre-trained Transformer) 系列模型就是通过预测下一个 Token 来进行训练的。GPT-3 模型使用了超过 1750 亿个参数，并在大量的文本数据上进行了训练，从而取得了令人瞩目的成果。
BERT 模型: 虽然 BERT 模型主要用于预训练语言表示，但它也使用了类似的思想。BERT 模型通过预测被掩盖的 Token (masked language modeling) 和预测下一个句子 (next sentence prediction) 来学习语言的结构和规律。

总结：从 Token 到智能涌现

本文深入探讨了 LLM 技术中 Token化 的重要性，以及基础 LLM 如何通过预测下一个 Token 来进行学习。Token化 作为原始文本转化为数值的桥梁，直接影响着模型的效率、准确性和泛化能力。而通过预测下一个 Token，LLM 不仅学习到了语言的结构和规律，也逐渐掌握了世界知识，最终涌现出智能。

从原始文本到 Token，再到模型的训练和学习，每一步都至关重要。理解这些基础概念对于深入了解 LLM 技术，并将其应用于实际问题至关重要。希望本文能够帮助读者更好地理解 LLM 的工作原理，并激发更多关于 大模型 技术的思考和探索。未来，随着 Token化 技术和模型架构的不断发展，我们有望构建更加强大和智能的 LLM，推动人工智能领域的进一步发展。

大模型技术详解（三）：从 Token 到训练 —— 基础 LLM 如何学习