大语言模型 (LLM) 领域正在经历爆炸式增长,各种术语和分类层出不穷,让人应接不暇。本文旨在拨开迷雾,对 LLM 的主要类型和类别进行全面梳理,帮助读者理解“开源”模型、“指令微调”模型以及 “SLM” 在 LLM 家族中的地位。 理解LLM模型类型对我们掌握AI技术,将其应用到实际场景至关重要。
一、基于可用性的分类:开源、部分开源与闭源
LLM 的可用性是区分不同类型 LLM 的一个重要维度,主要分为开源、部分开源和闭源三大类。
- 开源 LLM:顾名思义,这类模型完全开放,包括模型权重和代码,允许用户自由使用、修改和部署。例如,Meta 的 Llama 2 和 BLOOM 就是典型的开源 LLM。开源 LLM 的优势在于透明度和可定制性,用户可以根据自身需求对模型进行调整和优化。
- 部分开源 LLM:这类模型在权重或代码的发布上有所限制,通常采用仅供研究使用的许可协议。虽然可以访问这些模型,但在商业用途或再分发方面可能存在限制。部分开源 LLM 在一定程度上兼顾了开放性和商业利益。
- 闭源 LLM:这类模型由特定的组织开发和维护,其内部运作机制(如代码、模型架构和训练数据)是不公开的。用户通常通过 API 或专有平台访问这些模型。例如,OpenAI 的 GPT-4、Anthropic 的 Claude 和 Google 的 Gemini 都是闭源 LLM。闭源 LLM 的优势在于性能和安全性,但用户对其内部运作机制缺乏了解。
选择哪种可用性的 LLM 取决于具体的应用场景和需求。如果需要高度的定制性和控制权,开源 LLM 是一个不错的选择。如果需要高性能和安全性,闭源 LLM 可能是更好的选择。
二、基于规模的分类:SLM、中型 LLM 与大型 LLM
LLM 的规模(通常以参数量来衡量)是另一个重要的分类维度,主要分为 SLM (小型语言模型)、中型语言模型 和 LLM (大型语言模型) 三类。
- SLM (小型语言模型):这类模型参数量较小(通常在几百万到几十亿之间,一般低于 7B),例如 Phi 4 模型。SLM 的优势在于效率高、速度快,可以在资源有限的设备上部署,非常适合边缘计算场景。 例如,在智能家居设备上,SLM 可以用于语音识别和自然语言理解,而无需将数据传输到云端。
- 中型语言模型:这类模型的参数量通常在 7B 到 30B 之间。它们在性能和可部署性之间取得了平衡。中型模型可以处理相对复杂的任务,同时保持合理的计算资源消耗。
- LLM (大型语言模型):这类模型参数量巨大(通常超过 30B),例如 GPT-4、Gemini 等。LLM 展现出涌现能力,可以处理复杂的推理任务。但 LLM 需要更大的基础设施才能部署。 例如,LLM 可以用于金融领域的风险评估和欺诈检测,或者用于医疗领域的疾病诊断和药物研发。
选择哪种规模的 LLM 取决于具体的应用场景和计算资源。如果资源有限,SLM 是一个不错的选择。如果需要处理复杂的任务,LLM 可能是更好的选择。
三、基于范围和能力的分类:基础模型与前沿模型
LLM 的范围和能力是衡量其通用性和先进性的重要指标,主要分为基础模型和前沿模型两类。
- 基础模型:这类模型是在海量语料库上训练的通用 AI 模型,具有很强的适应性,可以用于各种任务。例如,GPT-4 和 Llama 4 都是基础模型。 基础模型通常被用作构建更专业化或定制化模型的基础。 例如,一个金融科技公司可以基于基础模型,通过添加金融领域的特定数据和训练,来构建一个专门用于金融风险评估的模型。
- 前沿模型:这类模型是最先进、最有能力的模型,代表了 AI 领域的领先技术。例如,Google 的 Gemini 就是一个前沿模型。前沿模型通常具有更高的准确性、更强的推理能力和更好的泛化能力。 例如,前沿模型可以用于解决复杂的科学问题,或者用于开发新的 AI 应用。
基础模型和前沿模型代表了 LLM 的两个不同发展阶段。基础模型是 LLM 的基石,前沿模型是 LLM 的未来。
四、基于架构的分类:Transformer、Decoder-only、Encoder-Decoder、Encoder-only、MoE 和 RAG
LLM 的架构决定了其处理数据和学习的方式,主要包括 Transformer、Decoder-only (因果 LM)、Encoder-Decoder (Seq2Seq)、Encoder-only、混合专家 (MoE) 和 检索增强生成 (RAG) 等多种类型。
- Transformer 模型:Transformer 架构利用注意力机制来捕捉长距离依赖关系,是目前最主流的 LLM 架构。与以往的顺序处理模型不同,Transformer 利用注意力机制来衡量输入数据中不同部分的重要性。 例如,在翻译任务中,注意力机制可以帮助模型更好地理解源语言和目标语言之间的对应关系。目前大多数现代 LLM 都采用了 Transformer 架构。
- Decoder-only (因果 LM):这类模型也称为因果模型,按顺序处理输入并逐个生成输出,有效地根据前一个 token 预测下一个 token。它们最常见的应用是文本生成。例如,GPT 模型和 Claude 都是 Decoder-only 模型。 Decoder-only 模型擅长生成连贯、自然的文本,但可能缺乏对输入数据的理解能力。
- Encoder-Decoder (Seq2Seq):这类模型处理输入并生成输出,涉及将输入序列映射到输出序列,用于摘要和翻译。例如,T5 (Text-to-Text Transfer Transformer) 就是一个 Encoder-Decoder 模型。 Encoder-Decoder 模型擅长处理序列到序列的任务,例如机器翻译、文本摘要等。
- Encoder-only:这类模型侧重于理解和提取输入序列的上下文,用于任务。它们并非旨在生成新文本,而擅长需要理解文本的任务,例如文本分类和情感分析。例如,BERT 就是一个 Encoder-only 模型。 Encoder-only 模型擅长理解文本的语义,但不能生成新的文本。
- 混合专家 (MoE):这类模型采用子模型(称为专家)来处理复杂任务。与激活所有参数的传统模型不同,MoE 模型仅激活与输入最相关的部分专家,从而实现模型的有效扩展。 例如 Mixtral 就是一个 MoE 模型。MoE 模型可以通过增加专家数量来提高模型的容量和性能。
- 检索增强生成 (RAG):RAG 模型在推理时整合外部知识。这些模型可以通过访问和整合来自外部知识源的信息来提高准确性和可靠性。 例如 IBM Granite 就是一个 RAG 模型。RAG 模型可以克服 LLM 的知识局限性,生成更准确、更可靠的文本。
需要注意的是,一个模型可以属于多种架构类型。例如,ChatGPT 是一个采用 Transformer 架构的 Decoder-only 模型。
五、基于训练方式的分类:自回归、Masked LM、指令微调、RLHF 和蒸馏
LLM 的训练方式是影响其性能和行为的关键因素,主要包括自回归语言模型、Masked 语言模型 (MLM)、指令微调模型、基于人类反馈的强化学习 (RLHF) 模型 和 蒸馏模型 等多种类型。
- 自回归语言模型:这类模型也称为 Decoder-only 或因果模型,经过训练可以预测序列中的下一个 token。例如,GPT 模型和 Claude 都是自回归语言模型。自回归语言模型擅长生成连贯、自然的文本,但可能缺乏对输入数据的理解能力。
- Masked 语言模型 (MLM):这类模型经过训练可以预测句子中缺失或被屏蔽的 token。这些模型在需要上下文理解和预训练以微调特定 NLP 任务的用例中非常有用。例如,BERT 就是一个 MLM 模型。MLM 模型擅长理解文本的语义,可以用于各种 NLP 任务,例如文本分类、情感分析等。
- 指令微调模型:这些是在指令-响应对上进一步训练的基础模型。这些对旨在教导模型如何响应不同类型的指令。例如,Instruct GPT 就是一个指令微调模型。指令微调可以提高 LLM 的指令遵循能力,使其更好地理解用户的意图并生成更符合用户需求的文本。
- 基于人类反馈的强化学习 (RLHF) 模型:使用人类反馈进行微调,以符合人类的偏好,例如乐于助人、诚实和无害。许多现代模型(例如 Chat GPT)都使用这些技术。RLHF 可以提高 LLM 的安全性、可靠性和可控性,使其更好地服务于人类。
- 蒸馏模型:这些模型通过将大型模型(教师)的知识压缩到较小的模型(学生)中进行训练。它们也可以归类在模型大小类别下,因为蒸馏的核心目标是生成更小、更快、更高效的模型。例如,DistilBERT 和 DeepSeek-R1-Distill-Qwen-32B 都是蒸馏模型。蒸馏模型可以在保持性能的同时降低模型的计算成本和存储成本,使其更易于部署和使用。
选择哪种训练方式取决于具体的应用场景和需求。如果需要生成连贯、自然的文本,自回归语言模型是一个不错的选择。如果需要理解文本的语义,MLM 模型可能更适合。如果需要模型更好地遵循指令,指令微调可能是一个有用的技术。如果需要提高模型的安全性、可靠性和可控性,RLHF 可能是一个必要的步骤。如果需要降低模型的计算成本和存储成本,蒸馏可能是一个有效的策略。
六、基于模态的分类:文本、多模态和语音
LLM 的模态是指其可以处理的输入和输出类型,主要分为文本模型、多模态 LLM 和 语音模型 三类。
- 文本模型:这类 LLM 处理文本输入并生成文本作为输出。例如,Llama 就是一个文本模型。 文本模型擅长处理各种文本相关的任务,例如文本生成、文本翻译、文本摘要等。
- 多模态 LLM:可以跨多种模态(例如文本、图像、音频和视频文件)处理和生成信息。例如,Gemini 就是一个多模态 LLM。多模态 LLM 可以更好地理解世界的复杂性,并生成更丰富、更生动的文本。
- 语音模型:这类 LLM 包括语音功能,例如转录或合成。例如,Whisper 就是一个语音模型。语音模型可以实现语音识别、语音合成等功能,为用户提供更自然、更便捷的交互方式。
随着技术的发展,多模态 LLM 和语音模型将越来越普及,为用户提供更丰富、更便捷的 AI 服务。
七、基于用例/目的的分类:通用、领域特定、对话式 AI/聊天机器人和代码生成
LLM 的用例或目的是指其设计用于解决的具体问题或满足的具体需求,主要分为通用模型、领域特定模型、对话式 AI/聊天机器人 和 代码生成模型 等多种类型。
- 通用模型:旨在执行各种语言任务。例如,Llama 和 GPT-4 都是通用模型。 通用模型具有很强的适应性,可以用于各种 NLP 任务,例如文本生成、文本翻译、文本摘要、文本分类、情感分析等。
- 领域特定模型:这些模型经过微调或在来自特定领域(例如研究或医疗领域、金融领域等)的数据上进行训练。例如,BloombergGPT 就是一个领域特定模型。领域特定模型在特定领域具有更高的准确性和专业性,可以更好地解决特定领域的实际问题。
- 对话式 AI/聊天机器人:经过优化,可以进行对话和互动。例如,ChatGPT 和 Claude 都是对话式 AI/聊天机器人。对话式 AI/聊天机器人可以与用户进行自然、流畅的对话,为用户提供各种服务,例如客户服务、信息咨询、娱乐等。
- 代码生成模型:专门训练用于生成各种编程语言的代码。例如,Codex 就是一个代码生成模型。代码生成模型可以帮助程序员更高效地编写代码,降低软件开发的成本和时间。
选择哪种用例或目的的 LLM 取决于具体的应用场景和需求。如果需要处理各种 NLP 任务,通用模型是一个不错的选择。如果需要在特定领域获得更高的准确性和专业性,领域特定模型可能更适合。如果需要与用户进行自然、流畅的对话,对话式 AI/聊天机器人是一个不错的选择。如果需要生成代码,代码生成模型可能更有效率。
八、基于部署方式的分类:云端、设备端和联邦/私有
LLM 的部署方式是指其运行和访问的方式,主要分为云端部署、设备端部署 和 联邦/私有部署 三类。
- 云端部署:托管在远程服务器上,并通过 API 和云计算平台(如 AWS、Azure 和 Google Cloud)访问。例如,Gemini 就是一个云端部署的 LLM。云端部署的 LLM 具有高可用性、可扩展性和易维护性等优点,但可能存在数据安全和隐私问题。
- 设备端部署:在用户硬件上本地运行,以实现低延迟使用。LLM 完全在单个设备(如手机或计算机)上训练和使用。无需持续的互联网连接或将数据发送到外部服务器即可部署 LLM。设备端部署的 LLM 具有低延迟、高安全性和保护隐私等优点,但对设备的计算资源和存储资源有较高的要求。
- 联邦/私有部署:部署在安全、私有或离线环境中。该模型在多个设备上协同训练,每个设备或服务器将其数据保存在本地。联邦/私有部署的 LLM 可以在保护数据隐私的同时进行模型训练和推理,适用于金融、医疗等对数据安全和隐私要求较高的领域。
随着技术的发展,设备端部署和联邦/私有部署将越来越普及,为用户提供更安全、更便捷的 AI 服务。
总结
LLM 的分类是一个复杂且不断发展的领域。本文从可用性、规模、范围和能力、架构、训练方式、模态、用例/目的和部署方式等多个维度对 LLM 进行了分类。理解这些分类有助于我们更好地理解 LLM 的特点和适用场景,从而更好地选择和使用 LLM。希望本文能帮助读者在大语言模型领域找到方向,掌握 LLM 的战略性分类,并能实际应用。