人工智能领域的快速发展,如同打开了潘多拉的魔盒,各种创新层出不穷。然而,每一个突破性的进展往往伴随着新的挑战。大模型的能力日益强大,但在实际应用中却面临着信息孤岛的困境。例如,ChatGPT无法直接读取Slack线程,Claude也无法访问您的数据库。企业内部署的各种智能体(agents)各自独立运行,虽然具备一定的智能,但缺乏有效的连接与协作。随着企业不断堆叠模型、智能体和API,真正的瓶颈不再是智能本身,而是连接。这时,两个新兴协议——模型上下文协议(Model Context Protocol, MCP)和Agent2Agent(A2A)——应运而生,旨在解决这一难题,构建新一代真正协同工作的智能体。

MCP:大模型的通用连接器

大模型自身无法直接访问外部工具或数据,它需要一种途径来连接您的数据库、获取文件或触发外部操作。这就是MCP的用武之地。MCP,即模型上下文协议,由Anthropic于2024年11月发布,旨在为人工智能智能体提供一个通用的连接器。

可以将MCP视为一个AI智能体的通用插头。无需为每个工具或数据集编写定制的集成,MCP允许智能体使用一致的协议连接到外部系统,例如API、文档或数据库。它标准化了智能体获取和使用所需信息的方式,从而大大简化了工程师的工作。

MCP如何解决扩展性问题?

在MCP出现之前,集成智能体和10个工具意味着需要编写和维护10个独立的定制连接器,每个连接器都有独特的API、身份验证和错误处理。这在技术上是可行的,但耗时且易出错。

MCP改变了这种模式:工具提供商实现一个与MCP兼容的端点,任何遵循MCP协议的智能体都可以连接。这就像智能体的HTTP协议一样——标准化、可重用且开源。

MCP的工作原理

MCP通过三个主要组件协同工作:

  • 宿主 (Host): 基于LLM的应用,例如 Claude Desktop 或 Cursor IDE,用于管理多个客户端。宿主负责客户端生命周期、聚合上下文并执行用户权限。
  • 客户端 (Client): 与服务器保持一对一的连接。客户端负责路由消息、跟踪功能、管理订阅以及协商协议兼容性。
  • 服务器 (Server): 公开工具、资源和模板,以丰富LLM的响应。

MCP服务器提供的能力

当连接到MCP服务器时,您将获得以下三种类型的能力:

  • 工具 (Model-controlled): 由AI调用的函数,例如API调用或文件操作。例如,您的人工智能可以自动查询客户数据库,以查找过去一个月内注册的所有用户。
  • 资源 (User-controlled): 上下文数据,例如数据库模式、文件内容或文档。例如,为您的AI提供访问公司风格指南的权限,以便它可以编写符合您品牌声音的内容。
  • 提示 (User-controlled): 预定义的指令,用于指导模型如何与工具或数据交互。例如,一个模板可以帮助AI以特定方式格式化数据库查询以适应您的组织。

该系统使用通过HTTP/HTTPS的标准化传输JSON-RPC 2.0,从而确保安全可靠的通信。值得注意的是,单个宿主通常连接到多个MCP服务器,每个服务器代表一个独特的集成,拥有自己的工具、资源和提示。这种结构消除了对一次性连接器的需求,并通过一致的协议实现可扩展的集成。

这种设置实现了结构化和动态的工具访问,而无需一次性的、定制的集成。在AI智能体的时代,MCP已得到广泛采用,为安全、可扩展地访问外部数据和工具奠定了基础。常见的MCP服务器示例包括GitHub MCP服务器、Slack MCP服务器和Google Drive MCP服务器。

A2A:多智能体协作协议

如果说MCP是关于将AI智能体连接到工具和数据,那么A2A则是关于将智能体彼此连接。A2A协议使得智能体之间能够相互通信。它提供了一种标准化的方式,使它们能够相互发现、了解彼此的能力、委派任务并协商结果共享方式。这使得多个智能体——可能由不同的供应商构建——能够在不紧密耦合的情况下进行协作。

想象一下您正在计划一次商务旅行。与其让一个AI尝试完成所有事情,不如让A2A允许一个旅行智能体专门处理航班,一个酒店智能体处理住宿,以及一个日历智能体管理日程安排——所有这些智能体都无缝协作。

A2A由Google于2025年4月9日发布,目前仍处于早期开发阶段。Google正在与合作伙伴合作,计划在2025年晚些时候推出一个生产就绪版本。但是它的潜力巨大,可以实现更智能的工作流程、智能体市场和协作式AI服务。

A2A的独特之处

与MCP不同,MCP侧重于帮助单个智能体连接到工具和数据,而A2A则侧重于多智能体协作。它的构建目标是:

  • 智能体发现和握手: 智能体可以找到彼此并相互介绍。
  • 智能体之间的任务交接: 一个智能体可以将特定任务委派给专家智能体。
  • 内容协商以适应UI和系统约束: 确保消息可以在不同的平台上工作。

A2A的关键创新

A2A引入了许多概念,其中一些特别突出,包括:

  • 用户体验协商

A2A引入了一种名为用户体验协商的智能机制。当智能体交换消息时,它们可以发送不同类型的内容,例如文本、图像或结构化数据。接收智能体根据其功能决定它可以处理的内容,从而在设备和平台之间实现灵活的、多模态的体验。

例如,一个智能体可以同时发送视频解释和文本摘要——让接收智能体(或系统)根据UI约束选择合适的内容。这使得智能体通信具有适应性、可访问性,并且在设备和系统之间更加多模态。

  • 智能体卡片:AI的数字名片

A2A使用智能体卡片——机器可读的配置文件,用于宣传智能体的能力和偏好。它们包括:

  • name: 智能体名称或身份
  • description: 智能体的功能描述
  • version: 智能体或其API的版本
  • url: 可以访问智能体的端点
  • capabilities: 支持的功能(例如,流式传输、推送通知)
  • defaultInputModes / defaultOutputModes: 智能体可以消费或生成MIME类型
  • skills: 智能体可以执行的任务,通常在AgentSkill对象中描述

这些卡片使智能体能够找到彼此并决定如何协作。

MCP和A2A如何协同工作

从高层次来看:MCP将LLM或智能体连接到外部工具和数据,而A2A连接多个智能体以进行智能体间的通信和协作。用一个简单的类比来说,想象一个小组项目:

  • MCP为每个学生提供他们自己的工具
  • A2A是团队合作和沟通

总而言之,它们使AI智能体能够访问他们所需的内容,并与他人协调以完成工作。

其重要性

向AI智能体(不仅生成语言而且采取行动的LLM)的转变需要能够扩展、保护和协调其行为的基础架构。这正是MCP和A2A所提供的。

这两种协议都是开源的并且正在获得越来越多的关注。它们可能成为AI智能体的基础,就像HTTP之于网站一样。这些协议解决了组织当前面临的实际问题,例如缩短开发时间、改善用户体验和加快迭代速度。

回顾:从单智能体到多智能体系统

在人工智能技术发展的早期阶段,单个智能体可以执行特定任务,但其能力受限于自身所能获取的信息。以Nova Act为例,它能够通过精心设计的提示自主浏览Uber Eats来订购我最喜欢的菜肴。但是,Nova Act只能访问它在网页上看到和解释的内容。

而在MCP和A2A的世界中,情况会截然不同。MCP将使Nova能够直接访问餐厅数据库和订购系统,从而无需通过Web导航进行提示。A2A将使其能够与专门的智能体合作——一个用于餐厅研究,另一个用于价格比较,第三个用于交付协调。

随着我们从单一用途智能体转向多智能体工作流程,这些协议代表了更连接和更有能力的AI生态系统的基础架构。

结论

MCP和A2A的出现标志着大模型时代的一个重要转折点。它们不仅解决了当前AI应用中存在的连接问题,更为未来AI生态系统的发展奠定了坚实的基础。通过标准化的连接协议和协作机制,MCP和A2A将推动AI智能体之间的无缝集成和高效协作,从而释放更大的潜力,加速各行各业的智能化转型。随着这些协议的不断完善和普及,我们有理由相信,一个更加智能、互联和协作的AI世界即将到来。开发者们应该积极拥抱这些新技术,参与到MCP和A2A的生态建设中来,共同推动人工智能技术的进步。

如何入门

想要进一步探索MCP和A2A的世界,您可以从以下资源开始:

最后,请注意: 本文的部分内容是在AI的辅助下完成的,并经过作者编辑。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注