大模型智能体的军火库：行动空间入门指南

当面对复杂任务时，你是否曾眼睁睁地看着你的大模型智能体（LLM Agent）如同一个拿着钝剑的士兵，不知所措？很多时候，我们倾向于责怪智能体的“大脑”（即LLM本身），但真正的罪魁祸首往往是它的“军火库”——行动空间。这个空间中的工具可能不够锋利、令人困惑，或者根本不适合手头的任务。理解并优化大模型智能体的行动空间，是打造高效智能体的关键一步。

行动空间：智能体的灵魂

在智能体设计中，行动空间 (Action Space) 是智能体所有可用武器、工具和法术的集合，是其能力的根本体现。它不仅仅是一个函数列表，更是智能体能力的灵魂。一个精心打造的军火库，其中的每一把刀都锋利无比，且用途各异，是区分智能体是被第一个障碍击败，还是征服所有挑战的关键所在。一个设计良好的行动空间能够极大地提升大模型智能体的解决问题的能力。

设想一个需要进行市场调研的智能体。如果它的行动空间只包含一个简单的“网页搜索”工具，那么它可能无法有效地整理和分析大量数据。但如果它的行动空间包含更精细化的工具，例如：“网页搜索（带高级筛选）”、“文本摘要”、“情感分析”和“数据可视化”，那么它就能更全面地完成任务，并提供更有价值的洞察。

决策节点：智能体的战术家

拥有一个强大的行动空间只是第一步，智能体还需要知道如何选择合适的工具。这由决策节点 (DecideAction node) 负责，它充当智能体的战术家。智能体的工作原理是一个简单的循环：评估 -> 执行 -> 重复。决策节点负责评估当前情况（用户的请求和现有数据），然后从行动空间中选择最合适的行动。

例如，用户要求智能体“查找并总结最近关于气候变化的科学报告”。决策节点可能会首先选择“网页搜索”工具来查找相关报告，然后选择“文本摘要”工具来总结报告内容，最后选择“回答问题”工具来呈现最终结果。这个过程的关键在于，决策节点需要清晰地理解每个工具的功能和适用场景，才能做出正确的选择。

提示工程：驱动决策节点的核心

决策节点的“大脑”实际上是一个精心编写的提示 (Prompt)。这是一个容易被忽视，但至关重要的环节。没有复杂的算法，只有一系列为LLM量身定制的指令。提示描述了当前情况、可用的工具及其参数，并指示LLM选择最佳行动。

一个典型的提示可能如下所示：

### 上下文
你是一名研究助理。当前情况：
问题：{用户的原始问题}
之前的行动：{已完成行动的日志}
当前信息：{从之前行动收集的数据}

### 军火库 (可用行动)
以下是你可用的武器。选择一个。
[1] search_web
  描述：在互联网上搜索最新信息。
  参数：
    - query (str): 要搜索的特定主题。
[2] write_file
  描述：将文本保存到本地文件。
  参数：
    - filename (str): 要创建的文件名。
    - content (str): 要写入文件的文本内容。
[3] answer_question
  描述：提供用户的最终答案。
  参数：
    - answer (str): 完整、最终的答案。

## 你的下一个命令
回顾上下文，从你的军火库中选择最佳的行动。
以 YAML 格式返回你的响应。

LLM读取提示，理解情况和工具，然后选择最合适的工具。选择的质量完全取决于提示中对工具的描述清晰程度。清晰的描述使智能体更智能、更有效，而模糊的描述则可能导致灾难性的结果。

行动复杂度的三个层次：打造全面的军火库

如同打造武器一样，行动空间也需要考虑不同复杂度的工具。我们可以将行动分为三个层次：

一级：简单匕首（“按钮”行动）

这些行动不需要任何参数，就像开关一样，执行一个单一、可靠的任务。
- 代码示例： request_human_help 或 finish_task
- 提示描述： [1] request_human_help\n 描述：如果你遇到困难或需要澄清，使用此操作暂停并请求人类用户提供指导。
- 何时使用： 用于清晰、二元决策，例如智能体完成任务、遇到困难或失败时。它们非常适合控制总体流程。
二级：神射手的弓箭（参数化工具）

这些行动需要特定的参数才能发挥作用。智能体不仅要选择工具，还要通过提供正确的输入来瞄准目标。这是最常见、最通用的行动类型。
- 代码示例： search_web(query) 或 send_email(to, subject, body)
- 提示描述： [2] search_web\n 描述：在公共互联网上搜索给定的文本字符串。\n 参数：\n - query (str): 要查找的精确搜索词。必须是一个集中的字符串。\n[3] send_email\n 描述：撰写并向收件人发送电子邮件。\n 参数：\n - to (str): 收件人的电子邮件地址。\n - subject (str): 电子邮件的主题行。\n - body (str): 电子邮件的主要内容。
- 结构化输出的重要性： 智能体需要以结构化的方式（例如YAML或JSON）返回其选择的行动和参数。这需要通过提示工程来实现。
三级：创造的魔法书（可编程行动）

这是终极武器：一本魔法书，教导智能体如何编写自己的法术。这些是可编程的行动，智能体可以即时生成代码或复杂的指令。这使智能体具有解决前所未有问题的灵活性。
- 代码示例： execute_sql(query) 或 run_python_code(code)
- 提示描述： [4] execute_sql\n 描述：针对公司的销售数据库编写并运行 SQL 查询。数据库包含名为“customers”、“orders”和“products”的表。\n 参数：\n - sql_query (str): 要执行的有效 SQL 查询字符串。\n[5] run_python_code\n 描述：编写和执行沙盒 Python 脚本，用于复杂的计算、数据操作或与 API 交互。\n 参数：\n - code (str): 包含要运行的 Python 代码的字符串。
- 风险与安全： 可编程行动具有强大的能力，但也存在风险。智能体可能会犯错（例如，编写有bug的代码），并且未经谨慎处理可能会带来巨大的安全风险（例如，执行恶意代码）。始终在安全、沙盒环境中运行此类代码。

打造完美军火库的三个黄金法则

打造一个世界级的行动空间需要遵循以下三个黄金法则：

刻上清晰的用户手册（清晰至上）

行动及其参数的描述不是给自己看的笔记，而是给LLM的用户手册。如果手册含糊不清，LLM就会滥用该工具。要做到痛苦地、无情地明确。
- 糟糕的描述： search: 搜索东西。智能体会想：“什么东西？怎么搜？我提供什么？” 结果是胡乱猜测。
- 优秀的描述： search_web(query: str):\n 描述：在公共互联网上搜索关于单个特定主题的最新信息。返回前 5 个文本片段。\n 参数：\n - query (str): 一个简单且集中的搜索查询，通常为 3-5 个字。。现在智能体了解了其约束。它知道该工具用于一个主题，并且查询应该简短。它将正确生成诸如 search_web(query: "2024 Nobel Prize Physics winner") 之类的命令，从而获得更好的结果。
不要让你的战士背负垃圾抽屉（保持简洁）

在激烈的战斗中，战士无法承受在数百种选项中筛选武器。他们需要一套精简、精锐的选择。用太多的行动压倒LLM会导致混乱、决策速度变慢（需要处理更多 token），以及选择错误工具的可能性更高。
- 铁匠的指导方针： 拥有 10 个武器的军火库令人敬畏。拥有 100 个武器的军火库就是一个垃圾抽屉。
- 改进方法： 如果行动空间变得太大，则表明工具过于精细。不要创建 read_json_file、read_csv_file 和 read_text_file，而是打造一个更强大的武器：read_file(filename: str)。你的代码可以处理解析不同文件类型的内部逻辑。保持智能体的选择干净和高级。
让每件武器都独一无二（消除冗余）

军火库中的每件武器都应具有独特的用途。如果智能体有两个做类似事情的工具，它会混淆该使用哪个工具。这被称为缺乏“正交性”。
- 令人困惑的军火库（糟糕的设计）：
  - read_csv_from_disk(file_path: str): 从本地 CSV 文件读取客户数据。
  - query_database(sql: str): 查询实时客户数据库。
  - 当要求智能体“查找本季度新客户的总销售额”时，它应该使用哪个工具？数据可能在 CSV 中，也可能在数据库中。智能体不知道，可能会做出错误的选择。
- 专业玩家的策略：简化战场
  一个真正的铁匠大师不仅仅是锻造武器，他们还塑造战场，使其对自己有利。不要给智能体两个模棱两可的工具，而是在幕后为它做这项工作。
- 果断的军火库（良好的设计）：
  在智能体甚至开始之前，运行一个脚本，将 CSV 数据加载到数据库中的临时表中。
  现在，智能体的军火库干净而明确：
  - query_database(sql: str): 查询客户数据库，其中包含所有已知的客户数据。
    歧义消失了。智能体只有一个工具可以检索客户数据。你消除了冗余，并使智能体的决策变得微不足道，从而保证它每次都能做出正确的选择。

总结：智能体的锋利程度取决于其军火库

智能体的真正力量并非来自神秘的算法，而是来自精心、有纪律和创造性地打造行动空间的过程。记住，智能体只是一个带有分支的循环中的战士，根据提示做出决策，提示充当他们的作战计划。用简单的匕首进行快速、果断的命令，用神射手的弓箭进行精确、有针对性的行动，并用创造的魔法书进行终极灵活性。最重要的是，掌握打造大师的三个黄金法则：刻上清晰的手册，避免垃圾抽屉，消除冗余。

下次当你看到一个复杂的智能体框架，其中包含数千行代码时，不要被吓倒。你需要透过现象看本质，并提出根本性问题：“军火库里有什么？它是如何描述的？它是否锋利、简洁且独特？”

大模型智能体的军火库：行动空间入门指南

大模型智能体的军火库：行动空间入门指南

By llmtrend

为大模型打造高效API：七大实用指南，赋能AI Agent自主决策

利用 Redis 和 Celery 构建可扩展的 Agentic Workflow：应对现代应用中的复杂性挑战

大模型时代：AI Agent 的崛起与多智能体系统的未来

当“中立”的技术成为偏见的放大器：反思大模型时代的数字殖民主义与算法偏见

LiteLLM：大模型时代的瑞士军刀，用统一接口解锁AI无限可能

解码Transformer：大模型时代编码器-解码器架构的制胜之道

大语言模型的存在主义困境：意识、模拟与人类之镜

模型操控：AI安全、可靠与可控的未来之路

You Missed

当“中立”的技术成为偏见的放大器：反思大模型时代的数字殖民主义与算法偏见

当“中立”的技术成为偏见的放大器：反思大模型时代的数字殖民主义与算法偏见

LiteLLM：大模型时代的瑞士军刀，用统一接口解锁AI无限可能

LiteLLM：大模型时代的瑞士军刀，用统一接口解锁AI无限可能

解码Transformer：大模型时代编码器-解码器架构的制胜之道

解码Transformer：大模型时代编码器-解码器架构的制胜之道

大语言模型的存在主义困境：意识、模拟与人类之镜

大语言模型的存在主义困境：意识、模拟与人类之镜

大模型智能体的军火库：行动空间入门指南

By llmtrend

Related Post

为大模型打造高效API：七大实用指南，赋能AI Agent自主决策

利用 Redis 和 Celery 构建可扩展的 Agentic Workflow：应对现代应用中的复杂性挑战

大模型时代：AI Agent 的崛起与多智能体系统的未来

You Missed

当“中立”的技术成为偏见的放大器：反思大模型时代的数字殖民主义与算法偏见

LiteLLM：大模型时代的瑞士军刀，用统一接口解锁AI无限可能

解码Transformer：大模型时代编码器-解码器架构的制胜之道

大语言模型的存在主义困境：意识、模拟与人类之镜