从语言模型到生成式智能体：Google GenAI课程Day 3深度解析

Google 的 GenAI Intensive Course Day 3课程让我大开眼界。我原本以为会继续深入探讨提示词 (Prompt) 和 API 的使用，但实际上，这次课程让我重新思考了智能系统如何在现实世界中运作。核心主题就是生成式智能体 (Generative Agents) ——它们如何从预测单词进化到像人类一样进行决策。

什么是生成式智能体？

想象一下，你给 ChatGPT 或 Gemini 设定一个目标，比如“计划一个花费低于 2000 美元的东京旅行”。一个典型的 LLM (大型语言模型) 可能会生成一个漂亮的行程方案。但是一个生成式智能体呢？它不仅能生成方案，还能真正去查询航班信息、查找酒店价格，甚至在你告知旅行日期更改后，优化并调整行程。这种从语言预测到目标驱动行动的转变，正是生成式智能体如此强大的原因。它们不仅仅是“聪明”，而且具有“情境感知”能力。例如，一个用于电商的生成式智能体，在用户浏览商品时，不仅能理解用户的搜索意图，还能结合用户的历史购买记录、浏览行为，甚至当前的时间、地点等因素，更精准地推荐商品，并提供个性化的购买建议。这种情境感知能力，使得智能体能够更好地服务于用户，提高用户满意度和购买转化率。

生成式智能体的内部架构：大脑、工具和编排层

Google 将生成式智能体的架构分解为三个核心部分，理解这三个部分对于构建和应用生成式智能体至关重要：

大脑 (LLM)：这是进行推理的地方。把它想象成思维中心，由 Gemini 或 PaLM 等模型驱动，并使用以下框架：
- ReAct (Reason + Act，推理 + 行动)：逐步思考，并采取相应的行动。例如，在解决复杂问题时，智能体首先进行推理分析，然后根据推理结果执行相应的操作，例如调用API查询数据，更新数据库等。
- Chain of Thought (思维链)：像解决数学问题一样，分解逻辑。例如，当智能体需要理解一段复杂文本时，它会将其分解成一系列小的步骤，逐步分析每个步骤，最终理解整体含义。
- Tree of Thought (思维树)：在做出决策之前，探索多个推理路径。例如，在玩棋类游戏时，智能体可以模拟不同的走法，评估每种走法的潜在结果，选择最佳的走法。
工具 🛠️：这是事情变得真实的地方。 LLM 可以生成文本，但它们无法浏览网页或访问你的日历……除非它们连接到工具。工具分为三种类型：
- 扩展 (Extensions)：与 API 的预构建连接（例如 Google Flights 或 Maps）。例如，一个旅行规划生成式智能体可以通过 Google Flights API 查询航班信息，通过 Google Maps API 查询地图信息。
- 函数 (Functions)：在用户设备上本地运行的代码（具有更多控制权）。例如，一个图片处理生成式智能体可以使用本地代码对图片进行裁剪、旋转、调整亮度等操作。
- 数据存储 (Data Stores)：检索增强生成 (RAG) 的基础，允许智能体从知识库或文档集中提取信息。例如，一个客服生成式智能体可以从公司的知识库中查找相关问题的答案，并提供给用户。RAG 的引入极大提升了生成式智能体在特定领域内的知识水平和准确性，避免了完全依赖 LLM 本身可能出现的幻觉问题。
编排层 (Orchestration Layer)：这是指挥家。它决定了智能体下一步应该做什么、如何平衡推理和行动，以及如何在上下文中使用工具。在这里，计划、观察、行动和适应实时结合在一起。一个优秀的编排层能够保证生成式智能体高效、可靠地完成任务。例如，在处理用户提出的复杂问题时，编排层会首先对问题进行分析，确定需要哪些工具和知识，然后按照一定的顺序调用这些工具和知识，最终生成答案。

为什么生成式智能体至关重要？

对我来说，关键在于生成式智能体可以做静态 LLM 永远无法做到的事情。例如，一个静态 LLM 可以根据你的指令生成一篇关于气候变化的文章，但一个生成式智能体不仅可以生成文章，还可以实时从最新的科学论文中检索数据，分析数据，并将其整合到文章中，从而使其更具权威性和时效性。此外，生成式智能体还可以根据读者的反馈和评论，不断改进和完善文章，使其更符合读者的需求。

教导智能体他们需要知道的东西

有三种主要方法可以赋予智能体“知识”：

上下文学习 (In-Context Learning)：你在 Prompt 中向模型提供示例或上下文。简单、快速且出奇地有效。例如，你可以向智能体提供一些关于特定主题的文章，并要求它模仿这些文章的风格和内容，生成一篇新的文章。
基于检索的学习 (Retrieval-Based Learning)：智能体可以访问数据库或文档存储库。它根据需要提取信息——把它想象成给厨师提供整个食品储藏室，而不是单个食谱。例如，一个医疗诊断生成式智能体可以通过检索医学文献、病历等信息，辅助医生进行诊断。
微调 (Fine-Tuning)：重量级解决方案。你实际上是在你自己的数据上重新训练模型。非常强大，但成本高昂且耗时。例如，一个金融分析生成式智能体可以通过在大量的金融数据上进行微调，使其更擅长分析股票市场、预测经济趋势等。

选择哪种方法取决于具体的应用场景和需求。上下文学习适用于快速原型设计和简单的任务，基于检索的学习适用于需要大量知识的任务，微调适用于需要高度专业化的任务。

行业内的工具：LangChain、LangGraph 和 Vertex AI Agents

如果你计划构建自己的智能体，以下是一些你需要探索的工具：

LangChain：一个开源框架，可以更轻松地将 LLM 与工具、内存和控制逻辑连接起来。把它想象成智能体开发人员的瑞士军刀。 LangChain 提供了丰富的组件和模块，可以帮助开发人员快速构建各种类型的生成式智能体。例如，可以使用 LangChain 提供的 Memory 组件，让智能体记住之前的对话内容，从而实现更加流畅和自然的对话体验。
LangGraph：一个较新的项目，将基于图的工作流程引入 LangChain。它允许你直观地建模智能体行为——例如“如果这样，那么那样”的逻辑。 LangGraph 允许开发人员使用图形化的方式定义智能体的行为流程，这使得开发过程更加直观和易于理解。例如，可以使用 LangGraph 定义一个智能体，该智能体首先检查用户是否已登录，如果已登录，则显示个性化推荐，否则提示用户登录。
☁️ Vertex AI Agent Builder：Google 的一体化平台，用于创建、测试和部署生成式智能体。凭借内置的扩展和编排层，它非常适合大规模构建。 Vertex AI Agent Builder 提供了一系列工具和服务，可以帮助开发人员快速构建、测试和部署生成式智能体。例如，可以使用 Vertex AI Agent Builder 提供的自动机器学习功能，自动训练一个图像识别模型，用于识别用户上传的图片。

这些工具都大大降低了生成式智能体的开发门槛，使得更多的开发人员可以参与到生成式智能体的开发中来。选择合适的工具取决于你的技术栈、项目需求和预算。

真实案例：生成式智能体在电商领域的应用

以电商领域为例，生成式智能体的应用潜力巨大。例如：

智能客服： 生成式智能体可以 24/7 全天候提供客户服务，解决常见问题，并根据用户的情绪和历史记录提供个性化回复。通过与企业的知识库 (Data Stores) 连接，可以快速检索并提供准确的产品信息、订单状态和售后政策。
个性化推荐： 结合用户的浏览历史、购买行为和偏好，生成式智能体可以提供高度个性化的商品推荐，提高购买转化率。例如，如果用户之前购买过跑步鞋，智能体可以推荐相关的运动服装和配件。
商品描述生成： LLM 可以根据商品的图片和属性，自动生成吸引人的商品描述，节省人力成本。通过 Fine-Tuning，可以使生成的描述更符合品牌的风格和目标受众。
智能搜索： 用户可以使用自然语言进行商品搜索，例如“适合夏天穿的白色连衣裙”。 生成式智能体可以理解用户的意图，并提供相关的搜索结果。
内容创作： 生成式智能体可以帮助电商平台创建各种营销内容，例如促销活动文案、博客文章和社交媒体帖子。

这些应用不仅可以提升用户体验，还可以降低运营成本，并提高销售额。随着技术的不断发展，生成式智能体在电商领域的应用将会更加广泛和深入。

数据驱动的洞察：生成式智能体的性能指标

为了更好地理解生成式智能体的性能和价值，我们需要关注一些关键的性能指标：

准确率 (Accuracy)： 智能体生成答案的准确程度。这对于知识密集型任务，例如客服和医疗诊断，至关重要。
召回率 (Recall)： 智能体能够检索到相关信息的程度。这对于需要大量知识的任务，例如智能搜索和研究，至关重要。
流畅度 (Fluency)： 智能体生成文本的自然程度。这对于对话式任务，例如聊天机器人和虚拟助手，至关重要。
相关性 (Relevance)： 智能体生成答案与用户查询的相关程度。这对于推荐系统和信息检索，至关重要。
转化率 (Conversion Rate)： 智能体能够促使用户采取行动的程度。这对于电商和营销，至关重要。
用户满意度 (User Satisfaction)： 用户对智能体服务的满意程度。这可以通过调查问卷和用户反馈来衡量。

通过跟踪这些指标，我们可以更好地了解生成式智能体的优势和劣势，并对其进行优化，从而提高其性能和价值。例如，如果智能客服的准确率较低，我们可以通过增加知识库的规模和改进检索算法来提高其准确率。

结语：推理机器的崛起

Day 3 是一次警钟。

我们不再仅仅训练模型听起来聪明。我们正在构建可以思考、推理、行动和适应的智能体——就像可以随时学习、与 API 对话并实时解决现实世界问题的人工助手一样。

这不是科幻小说。

它现在正在发生。

如果你正在使用生成式 AI，你不再仅仅是提示——你正在编排智能。

如果你喜欢这篇文章，请关注我，我将在第 4 天和第 5 天深入探讨 Gen AI Intensive 的实际应用、部署技巧和实践工具。

让我们一起构建智能事物！

从语言模型到生成式智能体：Google GenAI课程Day 3深度解析