你是否还认为 AI 就是聊天机器人?在 2025 年,人们依然可能会将 “AI” 与聊天机器人、智能助手,甚至是一些模糊的、具有感知能力的,并且即将取代你工作的存在联系起来。但事实上,你身边的大部分 AI 根本不会说话。例如,那些帮你移除自拍背景的应用程序、游戏中为你旁白的语音,以及自动补全 Python 循环的工具,都依赖于 AI 技术。然而,这些应用背后的驱动模型却各不相同。它们可能是 视觉模型音频模型强化学习模型,甚至是针对特定任务训练的微型 分类器AI 已经悄然变得模块化和专业化。本文将带你深入了解 10 种不同类型的 AI 模型,它们正在你已经使用的工具背后默默工作,让你了解自己正在与哪种 AI 交互,甚至可能启发你构建自己的 AI 应用。

1. 大型语言模型 (LLM):通用型 AI 选手

首先,我们来聊聊最广为人知的 大型语言模型 (LLM)。LLM 的训练目标是预测句子中的下一个词。仅此而已。但是,当将模型扩展到数十亿个参数,并使用几乎整个互联网的数据进行训练时,你将获得可以编写代码、总结文档、生成对话,甚至用 Z 世代的俚语解释量子物理学的模型。

LLM 是通才。它们擅长许多事情,但并不擅长任何事情。你所知道的大多数聊天机器人、编码助手和 AI 写作工具都由 LLM 提供支持。例如,Notion AI、GitHub Copilot 以及各种聊天机器人和搜索助手,都是 LLM 的典型应用。

尽管 LLM 功能强大,但其并非万能。例如,在图像识别或语音处理等领域,LLM 的表现往往不如专门的 视觉模型音频模型

2. 视觉模型 (CV):AI 的眼睛

视觉模型 (CV) 是现代 AI 的眼睛。计算机视觉模型 经过训练,可以理解和解释图像或视频,有时甚至比人类更好。 它们可以实时检测物体、读取路标、诊断 X 光片,甚至识别人脸。它们不需要写十四行诗或理解隐喻,只需要看、分类、分割或检测。

著名的 视觉模型 包括 YOLO (You Only Look Once)、CLIP 和 Meta 的 Segment Anything。这些模型广泛应用于自动驾驶汽车、安全摄像头、AR 应用、电子商务图像搜索和医疗扫描等领域。

根据 MarketsandMarkets 的报告,全球 计算机视觉 市场规模预计将从 2020 年的 158 亿美元增长到 2025 年的 309 亿美元,年复合增长率 (CAGR) 达到 14.3%。这一增长主要得益于 视觉模型 在各行各业的广泛应用。

3. 音频模型:AI 的耳朵和嘴巴

音频模型 不仅仅是听,它们还听、解释,甚至生成。音频模型 专门用于理解声波,将原始音频转换为可用数据(反之亦然)。 从语音识别到音乐生成,它们是 AI 的耳朵(和声带)。

音频模型 的功能包括:将语音转录为文本、生成合成语音、检测语音中的情感、创作音乐以及消除背景噪音。

常见的 音频模型 包括 OpenAI 的 Whisper、RVC (Retrieval-based Voice Conversion)、Bark、MusicLM 和 Descript 的 Overdub。它们广泛应用于播客、配音、语音助手、呼叫中心、辅助工具和音乐制作等领域。

随着 音频模型 的不断发展,我们可能会看到越来越多由 AI 生成的音频内容,例如 AI 配音的视频或 AI 创作的音乐。

4. 强化学习模型:AI 的游戏玩家

强化学习 (RL) 模型不只是从数据中学习,而是从经验中学习。 就像用零食训练狗一样,RL 智能体因其行为而获得奖励(或惩罚),并通过反复试验来改进。

强化学习 的功能包括:在动态环境中学习做出决策、随着时间的推移优化长期回报、平衡探索(尝试新事物)和利用(使用已知策略)以及驱动自主行动和适应的智能体。

著名的 强化学习模型 包括 DeepMind 的 AlphaGo (击败了围棋世界冠军)、OpenAI 的 PPO 和 Dota 2 机器人、MuZero (无需了解规则即可掌握游戏) 以及特斯拉的 Autopilot 使用的 RL 组件。这些模型广泛应用于机器人和无人机导航、游戏 AI 和模拟、金融领域的投资组合优化、动态定价系统以及个性化教育和辅导系统。

强化学习AI 像游戏玩家一样学习的方式:采取行动,获得反馈,升级。

5. 多模态模型:AI 的感官集合

多模态模型 不仅仅是“阅读”文本,它们还可以看到、听到,甚至可能有一天会闻到(好吧,也许不是最后一种……)。 这些模型可以同时处理多种类型的输入,例如图像、音频和文本,并生成丰富的、具有上下文意识的响应。

多模态模型 的功能包括:组合来自不同模态的数据(例如文本 + 图像或视频 + 音频)、理解和推理跨感官输入以及生成内容,例如图像字幕、叙述摘要或视觉问答。

著名的 多模态模型 包括 OpenAI 的 CLIP (Contrastive Language–Image Pretraining)、Google DeepMind 的 Gemini、LLaVA (Large Language and Vision Assistant)、OpenFlamingo 和微软的 Kosmos-2。它们广泛应用于图像和视频字幕、具有视觉输入的搜索引擎、能够理解屏幕的虚拟助手、辅助工具(例如,为视障人士描述场景)以及多语种手语翻译器。

多模态 AI 是你能够向 AI 提问“这张截图有什么问题?”并实际得到答案的原因,欢迎来到跨感官智能时代。

6. Agentic AI 模型:AI 的行动派

Agentic AI 不仅仅是回答问题,它还可以完成任务。 这些模型旨在自主行动、跨工具执行操作以及根据目标(而不仅仅是提示)做出决策。

Agentic AI 的功能包括:将任务链接在一起并按顺序执行、使用浏览器、文件系统或 API 等工具、设置子目标、重试失败的步骤以及处理错误。

早期的 Agentic AI 概念验证模型包括 AutoGPT 和 BabyAGI。此外,OpenAI 的 GPT 具有函数调用和工具使用功能、LangChain + ReAct 框架、Devin (Cognition 的 AI 软件工程师) 和微软的 AutoGen 也是 Agentic AI 的代表。它们广泛应用于可以跨系统解决问题的客户支持智能体、可以调试、编写和测试代码的 AI 开发人员、可以重新安排会议并通知参与者的日程安排助手以及可以收集和总结实时数据的市场研究机器人。

Agentic AI 基本上是不睡觉的 AI 实习生,如果 LLM 是大脑,那么 Agentic AI 模型 就是身体。

7. 检索增强生成 (RAG) 模型:AI 的图书馆员

检索增强生成 (RAG) 模型是 AI 的图书馆员。它们不仅从接受训练的内容中生成,还会实时查找事实,并在回答之前将其带回来。

RAG 模型的功能包括:使用外部知识来源(例如矢量数据库或文档)、根据你的查询检索最相关的块、将这些结果与语言模型结合起来以生成准确的、最新的答案以及通过将答案建立在检索到的上下文中来减少幻觉。

例如,ChatGPT 具有浏览或文件上传功能、Perplexity AI 的研究助手、Meta 的原始 RAG 模型 (Retrieval-Augmented Generation)、LangChain + FAISS / Pinecone 堆栈以及 Cohere 的 Command R 具有 RAG 功能。这些模型广泛应用于企业文档的内部知识助手、引用验证来源的法律和医疗机器人、从科学数据库中提取数据的学术研究工具以及提供特定产品答案的客户支持聊天机器人。

RAG 就像将模型与 Google 搜索配对一样,只不过它不仅仅是搜索,还会根据搜索结果进行阅读、理解和响应。

8. 基础模型:AI 的航空母舰

基础模型AI 系统的母舰,是在广泛数据上训练的大规模预训练模型,几乎可以针对任何事物进行微调:语言、视觉、语音,甚至代码。

基础模型 的功能包括:充当下游任务的基础、通用且多功能、可以使用较小的数据集进行微调或调整以及支持从聊天机器人到代码完成再到图像生成的所有内容。

常见的 基础模型 包括 GPT-4 (语言)、LLaMA 3 (语言)、Gemini (多模态)、Claude (会话) 以及 DALL·E 和 Stable Diffusion (视觉)。它们广泛应用于构建其他专门模型(例如 RAG 或指令调整机器人)、创建多模态应用程序(例如图像 + 文本推理)、支持开源生态系统和自定义微调以及构成大多数商业 AI 产品的核心。

如果 AI 是一款视频游戏,那么这些将是你的新手宝可梦:强大、灵活且能够进化成任何东西。

9. 分类器模型:AI 的分拣员

分类器模型 是一种机器学习模型,旨在将输入数据分配到预定义的类别或标签中。它们是 AI 世界中的分拣员,能够快速准确地识别和区分不同的数据类型。

分类器模型 的功能包括:识别垃圾邮件、检测欺诈交易、诊断疾病、识别图像中的物体以及分析客户情绪。

例如,垃圾邮件过滤器使用 分类器模型 来识别和过滤垃圾邮件,信用卡公司使用 分类器模型 来检测欺诈交易,医生使用 分类器模型 来诊断疾病,自动驾驶汽车使用 分类器模型 来识别交通信号灯和行人。

分类器模型 是许多 AI 应用的基础,它们使我们能够自动化许多需要人工干预的任务。

10. 推荐系统:AI 的导购员

推荐系统 是一种 AI 模型,旨在根据用户的兴趣和偏好,向其推荐相关的产品、服务或内容。它们是 AI 世界中的导购员,能够帮助用户找到他们最需要的东西。

推荐系统 的功能包括:推荐电影、音乐、书籍、产品、新闻和社交媒体内容。

例如,Netflix 使用 推荐系统 来推荐电影和电视节目,Spotify 使用 推荐系统 来推荐音乐,Amazon 使用 推荐系统 来推荐产品,Google News 使用 推荐系统 来推荐新闻,Facebook 使用 推荐系统 来推荐社交媒体内容。

根据 McKinsey 的报告,个性化 推荐系统 可以将销售额提高 5-15%,将客户满意度提高 10-20%。

结论:并非所有 AI 都是一样的(这是一件好事)

在 2025 年,我们被各种 AI 模型 包围,它们不仅像我们一样说话,还可以看到、听到、推理、预测、推荐,甚至从头开始生成整个应用程序或视频。 但是最大的陷阱是什么? 认为一切都是 LLM

理解我们介绍的 10 种类型的 AI 模型 可以帮助你:

  • 通过选择正确的工具来构建更智能的产品
  • 避免滥用(并非所有事情都需要 700 亿参数的庞然大物)
  • 更好地与跨职能团队合作(AI 现在是每个人的事情)
  • 在会议上听起来更酷(让我们面对现实吧)

要点是什么? 并非所有事情都是 LLM,而这正是 AI 发展比以往任何时候都快的原因。下次有人像丢掉一个整体一样丢掉“AI”时,请用以下方式反击:

“酷,但我们在这里谈论的是哪种 AI检索增强基础模型,还是仅仅是一个美化的推荐器?”