大模型并非千篇一律：一份关于不同类型LLM的指南

随着大模型技术的爆炸式发展，各种标榜着“推理引擎”、“编码专家”的新模型层出不穷，它们都声称在数学、写作或其他特定任务上表现出色。面对如此多的选择，区分真正的差异和巧妙的营销变得越来越困难。但是，炒作之下确实存在着本质的区别。有些模型在特定任务上确实更胜一筹，这归功于它们的构建方式或学习的数据。关键在于辨别哪些是真材实料，哪些是纯粹的销售技巧，尤其是在试图为工作选择合适的工具时。本文将深入探讨不同类型的大模型，帮助读者更好地理解和选择合适的模型。

推理模型 (Reasoning Models)：深入逻辑的思考者

推理模型的核心在于超越简单的模式匹配和死记硬背，旨在赋予LLM更结构化和逻辑化的处理能力。这类模型专为执行逻辑推导、解决问题、遵循多步骤指令以及将复杂查询分解为更小、更易管理的部分而设计或微调。它们通常利用特定的提示工程技术或架构修改来提高“逐步思考”的能力。例如，一个推理模型能够成功解决一道复杂的数学应用题，并展示每一步的计算过程，或者根据依赖关系规划一个多阶段项目。

其目标是提高逻辑一致性、解决问题的准确性以及处理多步骤任务的能力。为实现这一目标，常用的方法包括：

链式思考 (Chain-of-Thought, CoT) 提示： 这是一种突出的技术，要求LLM在得出最终答案之前逐步解释其推理过程。这迫使模型执行中间推理步骤，通常可以提高输出的准确性和逻辑性，尤其是在算术、符号推理和常识推理等复杂问题上。例如，在询问“如果我买了3个苹果，每个苹果2元，我又给了售货员10元，我应该找回多少钱？”时，CoT提示的模型会先计算出总共花费6元，然后用10元减去6元，得出找回4元的结果，而不是直接给出错误的答案。
树状思考 (Tree-of-Thought, ToT) / 图状思考 (Graph-of-Thought, GoT)： 这是更高级的CoT变体，LLM探索多个推理路径，剪除不正确的路径，并汇总来自成功路径的信息。这更贴近人类的解决问题方式，即考虑不同的方法并选择最佳方法。想象一个需要制定复杂营销策略的任务，ToT模型可以同时探索不同的渠道（社交媒体、内容营销、电子邮件营销），分析每个渠道的潜在回报，最终选择最优组合。
程序辅助语言模型 (Program-Aided Language Models, PAL) / 工具使用模型： 这些模型可以生成代码（例如 Python）来解决问题，执行该代码，然后使用结果来形成最终答案。这利用了编程语言的确定性来进行准确的计算和逻辑运算，本质上是将困难的推理“外包”给可靠的外部工具。比如，要求PAL模型计算一个复杂的积分，它可以生成Python代码来执行计算，然后返回结果。

思考模型 (Thinking Models)：注重规划与自省的策略家

与推理模型密切相关，但“思考模型”或具有增强规划能力的模型通常强调规划、自我纠正和审议。这些模型可能涉及迭代过程，LLM在迭代过程中完善其理解，生成多个草稿，或寻求外部信息以改进其输出。这通常涉及“内心独白”或“代理”方法。

思考模型的目标是通过允许模型进行更深思熟虑且可能具有迭代性的内部过程，从而实现更高质量、更细致和更强大的输出。例如，一个LLM起草一篇论文，然后识别弱点并修改段落以获得更好的流畅性和连贯性，或者一个代理LLM浏览网络以收集信息，然后再回答一个复杂的问题。

它们如何“思考”：

自我纠正/自我完善： LLM根据某些标准或内部“评论家”评估自己生成的输出，然后尝试修改和改进它。这类似于人类审查自己的工作。比如，一个模型生成了一段关于气候变化的文字，然后通过内部的“事实核查”模块，发现某些数据引用不准确，从而进行修正。
迭代生成： 模型生成初始想法，然后在多个过程中详细阐述、完善和扩展这些想法。例如，一个模型在撰写小说时，首先生成一个粗略的情节，然后逐步添加细节、完善角色，最终形成完整的故事。
“内心独白”/草稿： LLM生成内部想法或计划（可能不会显示给用户）以指导其最终输出。这允许在提交响应之前进行更深思熟虑的处理。可以想象一个模型在回答一个棘手的问题时，先在内部模拟不同的回答，评估其风险和收益，最终选择最合适的答案。
代理LLM： 可以充当“代理”的LLM，通过设定目标、将其分解为子目标、执行工具、观察结果和纠正其路线。这体现了一种更积极和周到的过程。例如，一个代理LLM被要求“为明天的会议准备一份关于竞争对手的报告”，它会自动搜索网络、整理信息、分析数据，并最终生成一份完整的报告。

基础模型 (Base LLMs)：奠定基石的通用语言大师

基础模型，也被称为基座模型，是大型的预训练模型，它们从海量的文本和代码数据集中学习通用的语言理解和生成能力。它们经过训练来预测给定先前 token 的下一个 token。它们是构建更专业模型的基石。例如，GPT-3（指令调整之前）、LLaMA（基础模型）、BERT（虽然主要是一个编码器，但它是一个基础语言模型）。这些模型通常不具备直接与用户交互的能力，需要进一步的微调才能胜任特定任务。

指令调整模型 (Instruction-Tuned LLMs)：听从指令的智能助手

指令调整模型是在基础LLM之上，使用指令和演示数据集（例如，问题和答案、命令和响应）进行额外微调的模型。此过程增强了模型理解和遵循指令的能力，使其更擅长遵循用户提示、进行对话和遵守特定格式。大多数面向用户的LLM（如 ChatGPT）都源于此。通过指令调整，模型能够更好地理解用户的意图，并生成更符合用户期望的输出。例如，如果要求一个指令调整模型“用莎士比亚的风格写一段关于人工智能的文字”，它能够理解并生成一段模仿莎士比亚风格的文字。

对话优化模型 (Chat-Optimized LLMs)：擅长交流的聊天专家

对话优化模型是一种专门形式的指令调整LLM，专门针对多轮对话和对话进行微调。它们经过训练以维护跨轮次的上下文、提出澄清问题以及生成自然、对话式的响应。这就是为什么它们最适合聊天机器人、虚拟助手和交互式应用程序。例如：ChatGPT、Claude、Bard/Gemini、Character.AI 模型、Llama 2-Chat、Vicuna、ChatGLM、Baichuan2-Chat、ERNIE Bot 等。这些模型擅长理解对话的上下文，并在多轮对话中保持一致性。例如，在与ChatGPT的对话中，它可以记住之前的对话内容，并根据之前的对话进行后续的回答。

专业/微调模型 (Specialized/Fine-Tuned LLMs)：精通特定领域的专家

专业/微调模型是在特定领域数据（例如，医学文本、法律文件、代码存储库）上进一步微调的LLM，以便在特定任务或行业中表现出色，在这些任务或行业中，需要狭窄领域的深入知识，并且需要针对特定领域查询的高精度。例如：

代码： Codex、Code Llama、CodeT5、StarCoder、WizardCoder
数学： WizardMath、MathGLM、Minerva
科学： Galactica、BioGPT、ChemBERTa
法律： LexGPT、CaseLaw-GPT
医学： Med-PaLM、BioBERT、ClinicalBERT
金融： BloombergGPT、FinBERT
翻译： NLLB、mBART、OPUS-MT

这些模型在特定领域拥有专业的知识，能够处理该领域的复杂任务。例如，Med-PaLM能够理解医学术语，并提供专业的医疗建议。BloombergGPT则能够分析金融数据，并提供投资建议。

多模态模型 (Multimodal LLMs)：感知世界的全能型选手

多模态模型是在多种类型的数据输入（不仅仅是文本）上训练的LLM。这包括文本、图像、音频，有时还包括视频。它们可以以更全面的方式“看到”、“听到”和“理解”世界，从而实现图像字幕、视觉问题解答或从文本生成音频等任务。例如：GPT-4V (Vision)、GPT-4o, Claude 3/4 (Vision)、Gemini Pro Vision、LLaVA、BLIP-2、Flamingo、CLIP、DALL-E 3、Midjourney、Stable Diffusion XL。这些模型能够理解不同类型的数据之间的关系，并生成相应的输出。例如，给定一张图片的描述，多模态模型能够生成与该描述匹配的图片。

总结：选择最适合你的大模型

大模型的世界纷繁复杂，一个模型可能属于多个类别。理解不同类型模型之间的差异，以及它们如何适应特定场景至关重要。在选择大模型时，需要根据具体的任务需求和数据特点进行选择。例如，如果需要解决复杂的逻辑推理问题，推理模型可能是更好的选择。如果需要进行自然流畅的对话，对话优化模型则更胜一筹。如果需要处理特定领域的问题，则应该选择相应的专业/微调模型。而对于需要处理多种类型数据的任务，多模态模型是最佳选择。通过深入了解不同类型的大模型，我们可以更好地利用这些强大的工具，为我们的工作和生活带来便利。

你最常使用哪种类型的LLM？推理模型还是思考模型？在实际应用中，你是否观察到它们在性能上的差异？期待你的分享！

大模型并非千篇一律：一份关于不同类型LLM的指南