人工智能(AI)的浪潮席卷而来,特别是大模型技术的飞速发展,不仅深刻地改变了文本、图像、视频等内容的生成方式,更引发了我们对于认知、作者身份,以及当下热门的代理智能(Agency)关系的重新思考。本文将深入探讨代理智能的演进,从代理智能的分类、架构到未来的发展趋势,并分析其对人机协作模式的潜在影响。我们将着重探讨人工代理在各种场景下的应用,并展望混合代理的未来,旨在为读者提供一个关于大模型驱动的代理智能的全面视角。

代理智能,顾名思义,是指AI系统能够以越来越高的自主性进行操作,从简单的工具演变为具有理性人工代理行为的实体。 传统上,我们使用大型语言模型(LLM)赋能的聊天机器人仅仅作为助手,用于协助我们完成特定的任务。然而,新一代的代理智能能够自主地在环境中行动,具备控制和意图,能够主动地追求预定义的特定目标(即基于目标的人工代理)。例如,当用户询问罗马的天气时,智能人工代理能够识别这一请求,并自主决定访问天气信息网站获取相关数据。这种人工代理的行动不仅仅是执行预设指令,还包括对环境的理解和对突发情况的应变能力。此外,代理智能还表现出高度的适应性和自学习能力,能够根据环境变化调整行为,并不断提升完成目标的能力。在上述天气查询的例子中,人工代理能够理解并提取网站上的天气信息,并将其整合到回复中,同时记住该信息在页面上的位置,以便未来更高效地获取。

人工代理可以是个体行为,也可以是集体协作。在多人工代理系统中,多个人工代理协同工作以实现共同目标,这种集体交互产生的结果往往大于个体贡献的总和。想象一下,一个人工代理负责管理天气信息,而另一个人工代理负责提供旅行服装建议,它们可以协同工作,为用户提供一份完整的行李清单,这便是集体人工代理的强大之处。

早期的人工智能研究侧重于构建基于知识的系统,这些系统使用符号表示和逻辑推理来解决问题。这些代理智能通常被称为“审议人工代理”,它们基于信念(Beliefs)、愿望(Desires)和意图(Intentions)的模型(BDI模型)进行决策。审议人工代理是明确地具有意图和自主性的,他们依赖于:

  • 信念 (Beliefs): 代表人工代理所知或假定的关于环境的信息。
  • 愿望 (Desires): 人工代理希望达成的目标或目的。
  • 意图 (Intentions): 人工代理承诺执行的实现其愿望的具体计划。

BDI模型反映了人类的实践推理,具有以下特点:

  • 灵活性: 根据环境变化调整行为。
  • 计划的层次结构: 允许对行动进行模块化和战略性管理。
  • 反应性和审议性行动之间的平衡。

根据Vincent Muller的观点,这些人工代理可以被认为是智能的,因为它们能够在广泛的背景下实现目标,展示了识别目标、识别可用行动选项以及做出最佳决策的能力。用于评估的标准是最大化预期效用(一种工具性规范方法)。

由于它们是基于明确的逻辑基础设计的,因此可以追踪人工代理在行动之前开发的推理线索,验证哪些信息激活了哪些计划,并以受控方式模拟、审计或修改其行为。换句话说,人工代理可以用符号术语“解释”其行为。

例如,一个用于预订的虚拟助手收到一封电子邮件请求:“我明天早上9:30之前必须到达罗马”。在它的信念中包含用户的偏好(经济舱,首选航空公司)和其他背景信息(例如星期几)。它的愿望是满足用户的请求,在这种情况下是9:30之前到达罗马。它的意图可能包括搜索兼容航班,进行预订并检查座位可用性,并将事件插入用户的日历中。如果被要求,人工代理可以解释为什么它没有预订最便宜的航班。

2000年代初,BDI系统开始广泛应用,例如JadeX、JAM、dMARS、OpenPRS、UM‑PRS、ARTS等,直到SARL (2014)。

随着生成式AI的出现,一种新型的代理智能应运而生,它们整合了基于大模型(LLM)的组件。这些代理智能被称为“连接主义者”,因为它们以“分布式”的形式访问和处理知识,知识存储在神经网络的权重和连接中,而不是以符号形式存储。

在这种类别中,可以根据分配给生成式AI组件的角色来区分两种情况。

这些连接主义人工代理包括使用AI生成技术创建的组件,主要用于对话目的:它们理解用户的提示并激活一个(通常只有一个)函数来获取信息,然后使用该信息来组合对用户最合适的响应。

因此,这些人工代理能够更好地识别上下文,即使在高度动态的情况下也是如此,从理解和生成响应的角度来解释与用户的对话,并理解执行预定义任务的必要性,无论如何请求。

由于它们没有知识的符号表示,更不用说基于BDI模型的知识表示,它们最多可以在提示中定义的简单工作流程中执行任务。它们不评估是否以及何时自主执行外部操作,也不评估结果以修改操作的执行。

另一方面,对于这些人工代理,已经为“推理模型”表达的所有预防措施和批评仍然有效,在苹果公司的文章“思考的错觉”(Shojaee等人,2025)及其批评性评论“思考错觉的错觉”(Opus&Lawsen,2025)之后,这些模型现在是重新讨论的主题。特别是,很难理解人工代理是如何决定执行的操作的。

例如:一个智能人工代理通过基于LLM的聊天机器人与用户交互,它能够理解需要知道第二天罗马的天气,因为用户正在谈论在西班牙广场的台阶上进行摄影。人工代理能够激活天气信息搜索功能,并评估第二天的预测是否与户外工作兼容。

但是,它无法准确解释为什么它认为天气预报合适/不合适,因为它是在统计基础上得出该结论的,并且可能没有足够的历史数据来在此案例中进行准确的判断。

自最初发布以来(2023年11月),OpenAI的自定义GPT通过Actions部分支持通过API与外部服务集成。直到今天,它们仍然是连接主义对话人工代理的一个非常简单的例子。

OpenAI提供的另一个平台是ChatGPT Tasks,允许在预定义的时间(计划事件)激活内部引擎以执行预定义提示。要执行的任务基于激活提示“生成”,并由OpenAI协调。它不允许创建多人工代理解决方案,尤其是不允许在OpenAI环境之外采取行动。在完成活动后,它会生成对话类型的响应。

可以使用诸如Make或Zapier之类的平台来实现利用这种类型的人工代理并通过添加更多协调来实现的架构,我们可以将其定义为低人工代理能力。它们允许在应用程序和服务之间构建复杂的工作流程(场景),具有可视化界面(无需代码),遵循线性路由逻辑(如果-那么)。它们没有认知模型,甚至没有符号类型(BDI),但可以将连接主义人工代理作为外部函数集成。因此,它们不是为审议、意图、内部记忆或学习而设计的,但它们允许为非常简单的连接主义人工代理添加更多的控制和预测。

我们称那些使用LLM模型来推理上下文并根据超出分配目标的决策指标来评估要执行的操作的连接主义人工代理为协调者。因此,这些智能人工代理应用他们的行动能力(人工代理)与人工智能,并且不限于仅“智能地”执行某些活动。

这种类型的智能人工代理具有更大的控制整个过程的能力:它能更好地识别上下文,即使在高度动态的情况下也是如此,并且能够考虑多种决策参数。行动计划不是基于经典(符号)逻辑推导出来的,而是使用它们所基于的LLM生成的。

除了严格的功利主义之外,还可以应用各种更复杂且更少“机械”的指标。一些例子:

叙事一致性

人工代理可以决定偏爱那些相对于过去的行为或角色保持战略或身份一致性的计划。这是一种随着时间推移而一致的人工代理形式,与行为签名概念相关(例如,一个“从不说谎”的助手)。

伦理或规范评估

在存在伦理约束(例如,医学、法律、教育)的场景中,如果违反伦理原则或强制规则,人工代理可以拒绝最有用的行动。该指标受到非功利主义类型的不可撤销原则的“约束”。

集体或合作效用

在多人工代理环境中,人工代理可以优化效用,不是为了自己而是为了整个群体,或者找到两者之间的平衡。这意味着诸如系统可持续性、减少冲突或长期协同作用之类的指标。

长期学习

可以选择一个行动不是因为它在正在评估的步骤中是最佳的,而是因为它在未来是有用的,例如,根据未来学习。这是强化学习中探索的逻辑:牺牲即时结果以丰富知识库。

最小化风险或资源消耗

人工代理可以根据计划的鲁棒性(哪个行动对环境变化最不敏感?)或根据资源消耗(哪个行动具有更大的计算简单性,避免了过于繁重的计算?)做出决定。

组合和层次结构

这些指标不是相互排斥的。一个高级人工代理可以:

  • 权衡即时效用与未来学习,
  • 在身份一致性和运营成功之间进行协商,
  • 平衡个人目标和伦理约束。

这导致了分层或多目标评估系统,其中根据动态偏好函数选择行动,该函数也可以随着时间和经验而变化。

第一批协调连接主义人工代理的例子是在2022年底与第一批大型语言模型同时提出的。也许第一个是LangChain,然后在2023年,Microsoft推出了Semantic Kernel(协调框架)和AutoGen(更多基于LLM的人工代理的合作)。2024年,Nvidia推出了Nemotron,它是大型语言模型的替代品,也是专门用于人工代理应用的模型。2025年,Google推出了Gemini 2.0,巩固了其人工代理化战略:一种先进的多模式模型,并附带用于开发智能人工代理的丰富工具链,其中包括Vertex AI 人工代理构建器(协调器)、Agentspace和Workspace Flows(用于企业工作流程的垂直平台)、Mariner(浏览器助手)以及诸如Jules和Astra(专业人工代理)之类的原型。

为了扩展自定义GPT的功能,OpenAI在2024年中期推出了YourGPT:一个用于创建生成式AI聊天机器人的专用环境,无需代码。YourGPT取代了用于构建自定义GPT的GPT构建器,并引入了以非常简单的方式创建协调连接主义人工代理的可能性,与竞争对手提出的替代方案相比。

事实上,使用YourGPT创建的人工代理能够访问个性化的知识库(RAG),从而提高了对特定上下文的识别。使用Studio模块,可以定义决策树和预定义的对话脚本,以及“Intents”。这些是行为目的单元,可以使用它们以自然语言但以显式方式向人工代理描述在发生哪些触发事件时该怎么做。因此,人工代理可以自主选择激活哪个意图,解释模糊的输入,并在多个回合中保持上下文。

YourGPT的集成涵盖了每个需求:从原生API到具有数百个应用程序的复杂流程,定位为垂直和互连的对话人工代理的完整平台。

另一个进步是通过连接主义操作员人工代理实现的,该人工代理基于对Web的自主访问来执行操作,但仍在实验阶段。除了在对话和协调器中已经看到的功能外,这些人工代理还可以导航、填写、点击:它们模拟用户访问Web上的数字服务时的行为。它们在可见或不可见的数字空间中操作,并且可以:

  • 填写在线表格;
  • 通过动态解释内容来浏览网站;
  • 对SaaS工具执行操作(购买、预订、数据输入);
  • 在图形界面上执行命令;
  • 完成复合任务(例如,创建文件、发送文件、记录操作)。

因此,它们能够与任何具有Web访问界面的数字服务进行交互,因此,它们可以使用不同的服务执行不同的操作(多步骤操作),而无需人类预先定义每个步骤。

一方面,潜力是显而易见的:

  • 委托运营活动:从在线购物到行政报告。
  • 与不公开API但仅公开GUI的传统工具交互。
  • 复制人类流程:没有传统RPA的刚性。
  • 部署速度:无需大量开发。

但是,仍然存在很大的局限性(直到今天):

  • 部分不可靠:有时会错误点击、错误解释、卡住。
  • 调试困难:LLM模型的不透明性使某些错误难以预测。
  • 上下文受限:仅解释他们“看到”(例如通过屏幕截图)或阅读的内容。
  • 安全和授权:由于对帐户和系统进行操作,因此需要严格的控制。

在已经运行或宣布的系统中,可以区分两种主要类型:

  • 通用(消费者级别):旨在通过其Web用户界面访问日常使用的应用程序,以执行典型用户任务:购物、预订餐厅、填写表格、撰写电子邮件。
    • Operator (OpenAI): 今天仍在美国Pro用户中进行预览。它在浏览器上操作,执行可视化任务(填写表格、在线购买)。配备了自校正和计划能力。
    • Project Astra (Google): 正在开发中。集成了语音、视频和环境上下文的多模式人工代理
    • R1 (Rabbit): 配备LAM (Large Action Model)的物理人工代理,对手机或桌面的GUI进行操作,无需API。
  • 技术生产:旨在用于业务领域的专业类型应用程序:它们用于开发环境和后端自动化,以开发、测试和纠正软件或管理复杂的内容或数据管道。
    • AutoGPT (open-source): 多步骤自执行人工代理。接收目标并将其分解为顺序任务,试图自主完成它们。作为2023年首批发布的产品之一,它仍然存在明显的不稳定性。
    • Devin (Cognition Labs): 第一个自主“AI开发者”。它不浏览Web,但在实际工作环境(仓库、IDE、终端)中执行软件开发任务。

通过直接比较这两类人工代理,基于BDI模型的审议型人工代理和连接型协调器(基于LLM),可以理解它们都具有互补的优势和劣势。

事实上,LLM的生成能力被证明对于确保灵活性、流程智能和学习能力非常有价值,但以模块化、透明性和可靠性为代价。相反,这些特性由BDI模型保证,因此它可以确保编程的控制、精确性和效率,但以对称的限制为代价。

就像基于LLM的对话人工代理不知道他们在说什么并犯错误和产生幻觉一样,由于同样的原因,行动的人工代理也不知道他们在做什么,他们会犯错误并感到困惑。但是,后果可能要危险得多。例如,考虑医学、法律或教育等受监管的领域,在这些领域中,选择的透明性和意图至关重要。

因此,组合这两类人工代理的性能不仅仅是寻找更多可能性,而是保证可靠性。这被证明是充分传播智能人工代理以及为我们人类提供必要的安全和保护所必需的,而不仅仅是有希望的一步。

展望未来(现在已经到来),面向人工代理的编程注定要在复杂的自主系统的开发中发挥越来越核心的作用,挑战将是越来越多地将动态学习和受控行为结合起来,同时确保可扩展性、安全性和对道德约束的尊重。

在这种观点中,逻辑和语言不再是竞争对手,而是盟友。考虑到它们对人类认知过程的影响,潜力是巨大的,下一章将专门讨论这一点。

因此,混合人工代理的架构应包括:

  • LLM模块:用于解码命令、生成语言、以自然方式交互。
  • 符号引擎:用于根据BDI模型保持目标、约束和选择之间的一致性。
  • 语义记忆:用于维护交互、信念和过去操作的结构化历史记录。
  • 协调模块:用于将目标分解为子目标和具体操作。

这些模块并不新鲜,但新颖之处在于它们的集成,这使得能够生成关于人工代理体验本身的知识,也就是说,将人工代理转换为一种知识形式。

今天已经可以构建结合两种解决方案优势的架构,从连接主义协调器人工代理开始,并集成描述信念、愿望和意图的组件。

通过这篇文章的分析,我们可以清晰地看到,代理智能正朝着混合代理的方向发展,而混合代理的实现依赖于大模型技术的不断进步。未来的代理智能将更加智能、可靠,能够更好地与人类协作,共同创造一个更加高效、便捷的未来。而对于我们每个人来说,理解代理智能的原理、把握其发展趋势,将有助于我们在未来的数字化社会中更好地生存和发展。