构建稳健的AI智能体：提示工程、评估、工具调用与记忆管理

随着大模型技术的日益成熟，构建高效且可靠的AI智能体变得至关重要。本文将围绕提示工程、评估（Evals）、工具调用以及记忆管理这四个核心要素，探讨如何利用这些关键技术构建稳健、可应用于生产环境的AI智能体。尤其是在JavaScript生态系统中使用Mastra.ai等框架时，掌握这些技巧将显著提升开发效率和智能体性能。

1. 提示工程：智能体的基石

提示工程是构建AI智能体的首要环节，它直接决定了智能体的推理能力和输出质量。正如原文所强调的，大型语言模型（LLM）的性能取决于你给它的提示。一个精心设计的提示可以引导模型产生更准确、更有用的响应。

多样本提示（Few-shot Prompting）: 模仿人类的学习方式，通过提供多个示例来引导模型，类似于向新员工展示如何处理特定任务。例如，在构建一个客户支持AI智能体时，可以提供以下示例对话：
```
客户：我的互联网从今天早上开始就无法工作了。
智能体：您好！很抱歉给您带来不便。为了尽快解决问题，请您尝试重启路由器。
```
通过提供多个这样的示例，可以教会AI智能体如何以友好、简洁的方式与客户互动。
上下文与步骤: 对于复杂的推理任务，提供清晰的上下文和步骤至关重要。这有助于模型理解问题的本质并逐步解决问题。
利用Prompt CMS: 原文提到Mastra内置的Prompt CMS，可以显著提高提示工程的效率。这允许开发者集中管理和优化提示，无需手动修改代码。

Prompting技巧:
- 使用大写: 通过大写突出显示提示中的关键术语，引导模型关注重要信息。
- 结构化格式: 使用XML风格的格式或结构化部分，将提示组织成逻辑清晰的结构，帮助模型理解提示的意图。例如，使用类似于JSON的结构定义任务参数和约束条件。
案例: 假设你需要一个AI智能体来撰写产品描述。你可以使用以下结构化的提示：
```
<Product>
    <Name>高级无线耳机</Name>
    <Features>
        <Feature>主动降噪</Feature>
        <Feature>蓝牙5.3</Feature>
        <Feature>20小时续航</Feature>
    </Features>
    <TargetAudience>音乐爱好者、通勤人士</TargetAudience>
    <Tone>专业、吸引人</Tone>
</Product>
<Task>请根据以上信息撰写一段引人入胜的产品描述。</Task>
```

2. 评估（Evals）：量化智能体质量

由于AI智能体的输出并非完全确定，因此评估（Evals）在AI智能体开发中扮演着至关重要的角色。Evals提供了一种量化智能体性能的方式，帮助开发者跟踪质量并识别潜在问题。与简单的通过/失败测试不同，Evals返回一个0-1之间的分数，更精确地反映智能体的表现。

关键指标:
- 幻觉（Hallucination）: 评估智能体是否生成了虚假或不存在的信息。
- 忠实度（Faithfulness）: 评估智能体是否准确地反映了输入源的内容。
- 内容相似度（Content Similarity）: 评估智能体在不同版本之间的输出是否保持了原有的含义。
- 完整性（Completeness）: 评估智能体是否遗漏了重要的信息。
- 答案相关性（Answer Relevancy）: 评估智能体的回答是否与实际问题相关。

Eval类型:

分类/标签评估: 评估智能体是否正确地对内容进行分类或标记。
工具评估: 评估智能体是否调用了正确的工具函数。
提示工程评估: 测试提示调整对性能和稳健性的影响。

案例: 假设你正在开发一个内容摘要AI智能体。你可以使用以下评估指标：

import { Agent } from "@mastra/core/agent";
import { openai } from "@ai-sdk/openai";
import { SummarizationMetric } from "@mastra/evals/llm";
import { ContentSimilarityMetric, ToneConsistencyMetric } from "@mastra/evals/nlp";

const model = openai("gpt-4o");

export const myAgent = new Agent({
  name: "ContentWriter",
  instructions: "你是一个内容撰写者，负责生成准确的摘要。",
  model,
  evals: {
    summarization: new SummarizationMetric(model),
    contentSimilarity: new ContentSimilarityMetric(),
    tone: new ToneConsistencyMetric(),
  },
});

// 现在，当调用myAgent.generate()时，它将生成每个指标的评估分数以及文本输出。

通过集成这些评估指标，开发者可以全面了解摘要AI智能体的性能，并进行有针对性的优化。例如，如果内容相似度分数较低，可能需要调整提示或模型参数，以提高摘要的准确性。

3. 工具调用：扩展智能体的能力边界

工具调用赋予AI智能体执行实际任务的能力，使其能够与外部世界进行交互。通过调用API、执行计算或访问数据库，智能体可以完成更复杂的任务。

最佳实践:

清晰的描述: 在工具定义和系统提示中提供清晰的描述，帮助模型理解工具的功能和用法。
语义化的命名: 使用语义化的名称（如calculateBMI()）代替模糊的名称（如doStuff()），提高代码的可读性和可维护性。
严格的输入/输出模式: 定义严格的输入/输出模式，确保工具的正确使用和数据的准确性。
任务分解: 将复杂的任务分解为可重用的工具函数，提高智能体的效率和灵活性。

案例: 构建一个旅行助手AI智能体，可以使用以下工具来获取天气信息：

import { createTool } from "@mastra/core/tools";
import { Agent } from "@mastra/core/agent";
import { openai } from "@ai-sdk/openai";
import { z } from "zod";

// 1. 定义一个用于查询天气信息的工具
export const weatherInfo = createTool({
  id: "获取天气信息",
  inputSchema: z.object({ city: z.string() }),
  description: "获取给定城市的当前天气",
  execute: async ({ context: { city } }) => {
    // 在实际场景中，这里会调用外部天气 API：
    console.log(`正在获取 ${city} 的天气...`);
    // 为了演示，返回虚拟数据：
    return { temperature: 20, conditions: "Sunny" };
  },
});

// 2. 创建一个使用该工具的智能体
export const travelAgent = new Agent({
  name: "旅行规划师",
  instructions: "你是一名旅行助手。当被问及天气或当地信息时，请使用适当的工具来获取真实数据。",
  model: openai("gpt-4o"),
  tools: { weatherInfo }, // 连接我们的工具
});

// 3. 智能体使用示例
const userQuery = "巴黎的天气怎么样？我正在计划要带什么衣服。";
const result = await travelAgent.generate(userQuery);
console.log(result.text);

通过将获取天气信息的功能封装成一个工具，旅行助手AI智能体可以更有效地回答用户的查询，提供更个性化的建议。

4. 记忆管理：构建有状态的智能体

记忆管理是AI智能体能够维持上下文、记住过去交互的关键。通过管理短期记忆、长期记忆和工作记忆，智能体可以构建更连贯、更个性化的对话体验。

短期记忆: 存储最近的消息，用于处理当前的对话。
长期记忆: 使用检索增强生成（RAG）技术，从外部知识库中检索相关信息，保持响应的关联性，避免上下文窗口的过载。

工作记忆: 存储关于用户或任务的关键信息，用于维护持续的状态。

const agent = new Agent({ memory: new Memory({ options: { lastMessages: 10, // 短期记忆：保存最近的10条消息 semanticRecall: { // 使用RAG搜索相似的消息，即使它们不在最近的消息历史中 topK: 3, // 检索3条最相似的消息 messageRange: 2, // 包括每条匹配消息前后各2条消息 }, workingMemory: { // 管理持续的状态，例如用户的当前状态 enabled: true, template: ` # 用户资料 ## 个人信息 - 姓名: - 地点: - 时区: ## 偏好 - 沟通风格: [例如，正式，随意] - 项目目标: - 关键截止日期: - [截止日期 1]: [日期] - [截止日期 2]: [日期] ## 会话状态 - 上次讨论的任务: - 未解决的问题: - [问题 1] - [问题 2] `, }, },

}), });

案例: 在客户服务AI智能体中，工作记忆可以用于存储用户的个人信息、偏好和历史问题。通过利用这些信息，智能体可以提供更个性化、更高效的服务。例如，智能体可以自动识别用户的身份、了解用户的购买历史，并根据用户的偏好推荐产品。

结论

构建稳健的AI智能体是一个迭代的过程，需要不断地实验和优化。通过掌握提示工程、评估（Evals）、工具调用和记忆管理这四个核心要素，开发者可以构建更高效、更可靠的AI智能体，并将其应用于各种实际场景。Mastra.ai等框架的出现，简化了AI智能体的开发流程，降低了开发门槛。重要的是，从小处着手，逐步迭代，才能构建出真正强大的AI智能体。随着技术的不断发展，我们有理由相信，AI智能体将在未来的社会中扮演越来越重要的角色。

构建稳健的AI智能体：提示工程、评估、工具调用与记忆管理