大语言模型(LLM)正在改变我们与技术的互动方式,从撰写邮件到生成代码,它们无处不在。然而,这些看似智能的系统究竟是如何运作的?本文将基于对 Medha Mittal 文章的解读,深入探讨 LLM 的工作原理,从其核心概念、构建过程到未来的发展趋势,帮助你全面理解这项颠覆性技术。文章将围绕 LLM 的定义,Tokenization训练过程以及 LRM 展开讨论。

1. 大语言模型的定义与本质:预测的艺术

什么是大语言模型?简单来说,LLM 是一种经过训练的神经网络,能够理解和生成自然语言文本。其核心在于“大”—— 庞大的参数量,这些参数可以理解为模型内部的“神经元”,数量通常达到数十亿甚至数万亿。例如,GPT-3 拥有 1750 亿个参数,比银河系中的恒星数量还要多!

然而,一个令人不安的事实是:LLM 并不真正“理解”任何东西。它们没有推理能力、没有意识,更没有数字意识。它们所做的一切,都是基于文本中的统计模式预测下一个最有可能出现的词语。可以把 LLM 想象成一个超级强大的自动完成系统。就像文章中例子所展示的,当输入“Once upon a…”时,LLM 会根据其在海量文本数据中学习到的模式,预测下一个词是“time”。

这种预测能力是 LLM 的基石。无论是生成一篇论文、编写一段代码,还是创作一首诗歌,都是通过一个词一个词地预测和生成来实现的。理解这一点至关重要,因为这揭示了 LLM 的局限性,以及我们应该如何正确地使用它们。

2. 从文本到数字:Tokenization 的关键作用

LLM 能够处理文本之前,必须将其转化为数字形式。这个过程称为 TokenizationTokenization 将文本分解为更小的单元,例如单词、子词或字符,并将每个单元映射到一个唯一的数字标识符,即 Token。

例如,对于句子 “What is the capital of France?”, Tokenization 可能会将其分解为以下 Token 序列:[1841, 318, 262, 3139, 286, 4881, 30]。每个数字代表一个特定的单词或符号。在 GPT-4 中,存在 100,277 个可能的 Token。

Tokenization 的质量直接影响 LLM 的性能。如果 Tokenization 不当,可能会导致模型无法正确理解文本的含义。例如,如果将 “France” 分解为 “Fran” 和 “ce” 两个 Token,模型可能无法将其识别为国家名称。

Tiktokenizer 是一个流行的 Tokenization 工具,可以帮助我们了解文本是如何被分解为 Token 的。通过使用 Tiktokenizer,我们可以更好地理解 LLM 的输入,并优化我们的提示(Prompt)以获得更好的结果。

3. 三阶段训练之旅:从海量数据到智能对话

构建 LLM 本质上就是大规模的机器学习。类似于预测房价,需要大量的数据(例如房屋面积、地理位置、卧室数量)和一个基本模型来学习粗略的模式(例如房价随面积增加)。LLM 遵循完全相同的框架——只是它们预测的是下一个词,而不是价格。

LLM 的训练过程通常分为三个阶段:

  • 阶段 1:数据盛宴 (Pre-Training)

    在这一阶段,LLM 被投喂了几乎人类所写的所有文本数据,包括:

    • 整个互联网(包括各种论坛)
    • 数百万本书籍(从莎士比亚到儿童读物)
    • 研究论文
    • 社交媒体帖子
    • 代码仓库(例如 GitHub)

    互联网包含超过 180 Zettabyte 的数据(1 Zettabyte = 1 万亿 Gigabyte)。即使只有 10% 是文本,那也是 18 Zettabyte 的潜在训练材料。但是原始互联网数据存在许多问题,例如格式错误、质量低下、包含垃圾信息和错误信息。因此,需要对数据进行清洗和过滤,以确保训练数据的质量。

    OpenAI 的 GPT-3 研究揭示了他们的数据优先级策略。虽然他们使用了 570GB 的数据,但他们对不同来源的数据进行了加权:

    | 数据来源 | 加权比例 |
    | :————— | :——- |
    | CommonCrawl | 0.6 |
    | WebText2 | 1 |
    | Books1 | 1 |
    | Books2 | 1 |
    | Wikipedia | 3 |

    从上表可以看出,模型在较小但质量更高的数据集(如 Wikipedia)上花费了更多训练时间,而不是在庞大但嘈杂的 CommonCrawl 数据上。这说明了数据质量的重要性。

  • 阶段 2:学习变得有用 (Instruction Fine-Tuning)

    经过第一阶段的训练,LLM 已经具备了生成文本的能力,但它还不能很好地理解人类的指令。如果你问它“你叫什么名字?”,它可能会回答“你最喜欢的颜色是什么?生命的意义是什么?”——因为这正是它在训练期间看到的文本序列。

    因此,需要进行微调 (Fine-Tuning)。微调是指使用专门的数据集对预训练模型进行进一步训练,以使其更擅长于特定任务。对于 LLM 来说,微调通常是使用大量高质量的问答对进行训练,以使其能够更好地理解人类的指令并生成有用的回复。

    例如:

    • 微调前 (Base Model):

      • 人类: “如何烤巧克力蛋糕?”
      • Base Model: “如何烤香草蛋糕?如何烤红丝绒蛋糕?烤蛋糕需要什么配料?为什么人们喜欢蛋糕?蛋糕的历史可以追溯到古埃及…”
    • 微调后:

      • 人类: “如何烤巧克力蛋糕?”
      • Fine-tuned Model: “这里有一个简单的巧克力蛋糕食谱:配料:- 2 杯通用面粉 – 2 杯糖 说明: 等等。”

    微调主要分为两种类型:

    • 指令/对话微调:旨在教会模型遵循指令、面向任务并参与对话。
    • 特定领域微调:旨在使模型适应特定领域(例如医学、法律、编程)。
  • 阶段 3:人类的润色 (RLHF – Reinforcement Learning from Human Feedback)

    即使经过微调,LLM 的回复有时仍然会显得过于机器人化,或者会胡编乱造。为了解决这些问题,需要使用人类反馈进行强化学习 (RLHF)。

    RLHF 的过程如下:

    1. 对于相同的提示,生成多个回复。
    2. 人类评估员对回复的质量进行排名。
    3. 训练一个奖励模型来预测人类的偏好。
    4. 使用强化学习来优化模型,以生成排名更高的回复。

    RLHF 可以帮助 LLM 学习更细致的人类沟通技巧,例如:

    • 提供真正有用的回复,而不是机器人式的回复。
    • 礼貌地拒绝不适当的请求。
    • 在适当的时候承认不确定性。
    • 以周到的方式处理有争议的话题。

4. 从 LLM 到 LRM:推理能力的进化

近年来,出现了大型推理模型 (LRM),例如 OpenAI 的 o1/o3、DeepSeek-R1、Claude 3.5 Sonnet 和 Gemini 2.0 Flash Thinking。

可以将 LRM 视为具有内部独白的 LLM——结构化、审慎且冗长。例如,当被问及量子力学时,LRM 可能会进行以下内部推理:

“让我逐步思考一下…如果用户问的是量子力学,我应该:

  1. 从基本概念开始。
  2. 使用他们可以理解的类比。
  3. 避免使用压倒性的技术术语。
  4. 检查我的解释是否合乎逻辑…”

这种内部推理模仿了人类解决问题的方式。 LRM 还采用了额外的微调步骤,例如:

  • Chain-of-Thought Prompting: 显式的逐步思考。
  • Reinforcement Learning with Verifiable Rewards: 奖励正确的推理过程。
  • Self-Verification: 模型检查自己的工作。
  • Rejection Sampling: 过滤掉薄弱的逻辑链。

5. LRM 的局限性:思考的幻觉?

尽管 LRM 在某些任务上表现出色,但苹果的研究表明,它们并不总是真正地进行推理。

苹果的研究人员使用受控的谜题环境(汉诺塔、跳棋、过河)测试了 LRM 是否真正地进行推理。他们的研究结果表明:

  • 存在三个不同的机制:
    • 低复杂度: 标准 LLM(没有“思考”)实际上表现更好——它们更快、更有效。
    • 中等复杂度: LRM 显示出优势;它们的推理有助于避免陷阱和死胡同。
    • 高复杂度: 两种类型的模型都崩溃了。没有正确的解决方案。甚至不接近。
  • 推理悖论: 随着问题变得更加困难,模型用于推理的 Token 减少了——即使 Token 预算允许更多。就像他们在最重要的时候放弃了思考。
  • 过度思考是真实存在的: 在简单的任务中,LRM 通常很早就找到了正确的解决方案,但仍然继续推理,探索错误的答案。这是浪费计算资源。
  • 算法执行失败: 即使给模型正确的算法来解决一个谜题(例如汉诺塔),它们仍然会在几个步骤后失败。这突出了一个主要的局限性:LLM——即使是推理变体——也很难进行精确的符号执行。

6. 结论:LLM 的合成能力与未来展望

总而言之,LLM 通过大规模的预训练、微调和人类反馈,学会了生成连贯的文本,并在特定领域内表现出一定的智能。尽管它们并不真正“理解”或“思考”,但它们擅长于合成和呈现其训练数据中的共识观点。

它们非常擅长于给你提供大量已接受知识的平均值——将大量信息提炼成连贯、结构良好的回复。

虽然还有很多工作要做,但 LLM 已经成为一个强大的工具,可以帮助我们解决各种问题。随着技术的不断发展,我们可以期待 LLM 在未来发挥更大的作用。

你觉得呢?了解 LLM 的工作原理是让你对它们印象更深刻,还是更不深刻了?分享你的想法——我很乐意听到这如何改变你对人工智能的看法。