近年来,大语言模型 (LLM) 的热度持续高涨,OpenAI、Hugging Face、Meta 的 LLaMA 系列等厂商纷纷推出各种型号和规模的 LLM。然而,当我们真正通过 ChatGPT 等聊天界面使用这些模型时,会发现大部分时间都花在了 prompting (提示词工程)上。我们需要不断地给出指令、评估输出,并根据结果进行调整。这种你来我往的互动模式,虽然有效,但也暴露出 LLM 的局限性。而 AI Agent 的出现,则为 LLM 带来了新的可能,它们能够将 LLM 从被动响应者转变为主动问题解决者,极大地提升了工作效率和创造力。
Prompting 的局限性:效率瓶颈与人工干预
Prompting,即通过精心设计的提示词引导 LLM 生成特定内容,是目前使用 LLM 的主要方式。 想象一下,你需要为 CrewAI (一个 AI Agent 构建平台) 撰写一段简短的营销文案。你向 ChatGPT 输入提示词,它生成了一段文字,乍一看不错,但你发现它太长了,不适合作为 Instagram 的帖子标题。于是,你再次向 ChatGPT 提问:“请精简这段文字。” ChatGPT 重新生成了一段更短的文案,可能更接近你的需求。
这个例子揭示了 Prompting 的一个关键问题:输出质量取决于输入质量,优化输出需要不断的人工干预。你必须持续参与到这个 迭代反馈循环 中,引导模型朝着期望的结果前进。这无疑会造成效率瓶颈,限制了 LLM 在更复杂任务中的应用。你并没有真正解放自己去做其他事情,而只是提高了你完成某件事的能力,但前提是你必须积极参与其中。就像一位技艺精湛的工匠,需要你的全程指导才能打造出精美的作品。
AI Agent:让 LLM 自主思考与决策
AI Agent 的出现,改变了 LLM 的工作方式。LLM 经过海量数据的训练,具备了强大的文本理解和推理能力。它们可以模拟认知过程,权衡选项,做出选择,并通过连贯的文本为自己的决策提供依据。这为 AI Agent 的发展奠定了基础。
AI Agent 本质上是一个能够进行 自主思考 的 LLM。它不仅仅是被动地生成一次性回复,还会参与到一个思考过程中。它可以自我提问、分析答案,并在返回最终结果之前修改其输出。这种内部循环模仿了人类在说话之前停顿、重新考虑和在脑海中迭代的过程。例如,在撰写报告时,AI Agent 会首先收集相关信息,然后分析这些信息,最后才开始撰写报告。在这个过程中,AI Agent 会不断地自我反思,确保报告的准确性和完整性。
有了 AI Agent,你不再是简单地给 LLM 一个任务,然后等待一个静态的响应。相反,你将一个任务交给一个可以自主解决问题、调整方法并返回优化答案的智能体。这种自主性大大提高了 LLM 的效率和应用范围。
Tools(工具):赋予 Agent 行动能力
仅仅拥有自主思考能力是不够的。真正强大的 AI Agent 还需要具备与外部世界 交互 的能力。不同的框架对这种能力有不同的称呼,例如“tools”、“skills”或“capabilities”,但其核心理念是一致的:赋予 Agent 访问文本生成以外的功能。
这些 tools 可以包括:
- 调用 API: 访问各种外部服务,例如获取天气信息、查询股票价格等。
- 抓取或检索数据: 从网站或数据库中提取信息。
- 发布到平台: 在社交媒体或博客上发布内容。
- 搜索网络: 在互联网上查找相关信息。
- 运行计算: 执行数学运算或数据分析。
这些 tools 将你的 Agent 从一个被动的响应者变成一个主动的 问题解决者。它不仅仅是思考,更重要的是行动。一个功能完备的 Agent,是一个可以推理、行动和适应的系统。例如,一个 AI Agent 可以使用 API 获取最新的新闻报道,然后分析这些报道,最后撰写一篇关于特定事件的摘要。
Multi-Agent Systems(多智能体系统):协同作战,提升效率
更进一步,想象一下,不是一个 Agent,而是多个 Agent,每个 Agent 都有自己的职责。这就是 多智能体系统 的概念。这些系统建立在单智能体模型之上。一个 Agent 可以被赋予一个目标,然后它可以将子任务委派给其他专门的 Agent。例如,一个 Agent 负责研究,另一个负责编写摘要,还有一个负责验证结果。
最终,整个系统协同工作,返回一个单一的输出,但这已经是协作、委派和专业化的结果。这种系统能够释放一种全新的 AI 工作方式,人类不再是瓶颈,而是指挥者。
一个实际的例子是新闻报道的生成。一个多智能体系统可以包含以下 Agent:
- 信息收集 Agent: 负责从不同的新闻来源收集信息。
- 事实核查 Agent: 负责验证信息的准确性。
- 写作 Agent: 负责根据收集到的信息和事实撰写新闻报道。
- 编辑 Agent: 负责编辑和润色新闻报道。
通过多个 Agent 的协同工作,可以更快、更准确地生成高质量的新闻报道。
为什么选择多智能体系统?专业化与灵活性
你可能会问:为什么不坚持使用一个强大的 Agent?为什么要把事情搞复杂,使用多个 Agent 呢?这是一个很好的问题,答案也很有说服力。
-
专业化带来优势: 通过多个 Agent,每个 Agent 都可以针对特定任务进行定制。你可以让一个 Agent 专门负责研究,在文档中爬行,验证来源,并找到最相关的信息,而另一个 Agent 则专注于写作,使用这些数据生成清晰、有说服力且结构化的内容。与其让一个通用的 Agent 承担各种各样的责任,不如将每个角色分配给一个专家,从而获得专注度、深度和质量。
-
跨 LLM 灵活性: 多智能体系统的另一个主要优势是 LLM 的互操作性。每个 Agent 不必依赖相同的底层模型。你可以让你的研究 Agent 由 Llama 3 提供支持,让你的写作 Agent 由 GPT-4 提供支持,甚至可以构建自己的微调模型来处理诸如摘要或事实核查之类的利基任务。多智能体系统打开了利用每个模型最佳功能的大门,具体取决于上下文。
这是一种模块化和混合的方法,这意味着更多的定制、更多的控制,最终带来更好的结果。 例如,一个多智能体系统可以同时使用 GPT-4 和 Llama 3,前者擅长生成创意文本,后者擅长处理结构化数据。
CrewAI:构建多智能体系统的利器
是的,你可以让数十个 Agent 在复杂的、递归的工作流程中协同工作。但在我们完全进入元宇宙,设计一家由其他 AI 运营的 AI 公司之前,让我们回到现实。让我们从构建你的第一个多智能体系统开始。
对于我们在这个课程中构建的所有内容,我们都在使用一个名为 CrewAI 的开源框架。当今市面上有很多框架,那为什么选择 CrewAI 呢?
- 通过结构实现简单性: CrewAI 采用所有这些抽象的 Agent 概念,例如任务、tools、思考循环……并将它们封装在简洁的、模块化的代码中。学习曲线平缓,但并不牺牲力量。
- 开箱即用的主观模式: 你不必从头开始制定架构决策。CrewAI 提供了智能默认值,可帮助你更快、更一致地将系统组合在一起。
- 内置 Tools 和技能: CrewAI 附带了越来越多的现成 tools 和功能。从 API 到网络爬虫再到数据验证器,我们将直接使用这些 tools。
- 自定义 Tooling 和可扩展性: 你还可以构建自己的 tools、Agent 和工作流程。
- 可用于生产环境的部署: 最后,CrewAI 不仅仅是用于玩耍。它提供了一个在现实世界中实际部署你的 Agent 的平台。因此,你在这里构建的系统?你可以在准备好时交付它们。
结论:AI Agent 引领未来
AI Agent 的出现,标志着 大语言模型 应用进入了一个新的阶段。它们突破了 prompting 的局限性,赋予 LLM 自主思考 和行动的能力。Tools 的集成,更是将 Agent 从被动响应者转变为主动问题解决者。Multi-Agent Systems 的出现,则进一步提升了工作效率和创造力。
未来,我们可以期待看到更多基于 AI Agent 的创新应用,例如智能客服、自动化内容生成、个性化教育等。AI Agent 将会成为我们工作和生活中不可或缺的助手,帮助我们更高效、更智能地完成各种任务。而像CrewAI 这样的框架将会大大简化构建和部署AI Agent 系统的过程,加速AI Agent技术的普及。