2025年过半,回顾上半年,以DeepSeek为代表的大模型热潮逐渐冷却,人工智能进入一个相对平稳的时期。在检索增强生成 (RAG) 领域,学术论文产出虽多,但突破性进展相对有限。同时,市场炒作逐渐转向,一些观点认为“Agent 可以取代 RAG”,甚至出现了将 RAG 重新包装为“Agentic RAG”的趋势。本文旨在对 RAG 技术及其与 Agent 的融合现状进行年中评估,澄清概念,并探讨未来的发展方向,尤其关注长文本推理多模态数据处理方面的挑战。

RAG 与 Agent 的融合:记忆与推理的演进

2023 年的 “Fine-tuning Debate” 和 2024 年的 “Long-Context Disputes” 之后,2025 年关于 RAG 的讨论有所减少,而 Agent 系统则获得了更多关注。一些人甚至认为 Agent 消除了对 RAG 的需求。然而,这种观点忽略了 RAG 在 Agent 系统中扮演的关键角色,尤其是在记忆推理方面。RAG 通过索引、遗忘和整合等机制,构建了 Agent 的长期记忆,支持任务状态跟踪和上下文加速,与短期记忆协同工作,形成完整的记忆架构。没有强大的 RAG 支持,Agent 的长期记忆将是不可持续的。

文章将 “Agent” 定义为包含工作流和智能 Agent 的综合概念。RAGFlow 的早期版本将 Agent 局限于工作流功能,而未来的版本将实现真正的 Agent 功能。这种整合设计理念强调工作流和 Agent 的内在统一性。Agent 通过手动或模型驱动的反射循环,解决 RAG 的推理挑战,实现智能突破。这三者是密不可分的。

事实上,无论是Prompt-Driven Reflection还是Training-Dependent Reflection,都依赖于RAG技术作为知识来源和支撑。例如,在金融领域的智能客服应用中,Agent 需要根据用户提出的问题,从海量的金融知识库中检索相关信息,并进行推理,最终给出专业的解答。RAG 技术能够帮助 Agent 快速准确地找到所需的信息,提高客服效率和用户满意度。

Agentic RAG:工作流 vs. 基于 Agent 的方法

文章区分了两种 Agentic RAG 方法:基于工作流的方法和基于 Agent 的方法。

  • 基于工作流的方法: 采用手动定义的 RAG 和 Agent 之间的交互,通过迭代和切换等组件实现反射。RAGFlow 早期版本就属于此类。 这种方法适用于处理意图模糊和长上下文理解等推理挑战。 例如,在问答系统中,可以设计一个工作流,首先通过 RAG 检索相关文档,然后使用 Agent 进行意图识别和答案抽取,最后将答案呈现给用户。
  • 基于 Agent 的方法: 使用模型自主驱动反射,例如 Search O1、DeepResearch 等。 这些方法又分为 Prompt-Driven Reflection (依赖 LLM prompting) 和 Training-Dependent Reflection (通过强化学习学习领域特定的思维链 CoT 和终止条件)。 这种方法更加灵活,可以适应不同的任务和场景。 例如,可以训练一个 Agent,使其能够根据用户的问题自动选择合适的 RAG 方法和推理策略,从而提高问答的准确性和效率。

需要强调的是,Search R1 等方法并非绝对优越。 它们的主要作用是优化通用 LLM 中特定领域数据的 CoT 和终止条件,本质上仍然依赖于基于 prompt 的 Agent 框架。

Agent 记忆:RAG 的长期支持

RAG 构建了 Agent 的长期记忆,并通过索引、遗忘和整合等机制,支持任务状态跟踪和上下文加速。而 Agent 的短期记忆通常保存 Agent 的会话互动和个性化数据,以原始或未处理的形式存在。高价值数据通过整合转移到长期记忆中。

OpenAI 投资 Supabase,旨在为 Agent 提供更易访问的工具,并部分提供内存管理。从 Agent 的角度来看,RAG 和各种数据基础设施解决方案在功能上是等效的,都只是 Agent 上下文中的工具。 但是,RAG 与记忆之间的内在联系使 RAG 与其他数据基础设施组件区分开来。

Agent 记忆需要提供索引、遗忘和整合等关键功能。

  • 索引: 提供超出简单查询的先进搜索功能。例如,在客户服务系统中,需要根据客户的历史记录和偏好,快速检索相关信息,以便提供个性化的服务。
  • 遗忘: 有意遗忘,模拟人类认知。遗忘有助于保持专注,从技术上讲,较小的数据集通常可以提高搜索精度。例如,可以定期清理过时的或不相关的数据,以提高系统的效率和准确性。
  • 整合: 意味着“加强”,通过总结和注释存储的数据来模拟认知过程。在技术上,它与 RAG 范例中的 GraphRAG 非常相似,LLM 将内存内容组织成知识图,通过提供更丰富的上下文来增强回忆。例如,可以将客户的聊天记录和订单信息整合到一个知识图中,以便更好地理解客户的需求和偏好。

RAG 技术瓶颈:长文本、多模态与基础设施

2025 年 RAG 相关论文持续发表,但在概念和系统方面的真正创新却很少。RAG 技术是否已经达到关键平台期?RAG 的核心依赖于信息检索 (IR),这是一个成熟的领域。 但是,RAG 提出了超越传统 IR 的新挑战,包括查询多样性和多模态数据。

  • 长文本推理: 长上下文推理依赖于分层索引。目前,针对超长文本的检索与推理,主要有以下几种方法:

    • 不分块,全文检索: 跳过分块,根据简短的查询直接召回整个文档,并将其直接输入上下文。这种方法适用于少量文档,但由于对全局文档上下文的理解较差,因此在规模化时会遇到困难,导致召回相关性较低。
    • 分层索引 & 文档内 Agentic RAG: 在摄取过程中构建反映文档结构(例如,章节、子章节)的树状索引。召回发生在文档级别,然后使用分层索引在文档内进行结构化遍历,以定位相关块,从而在文档内实现“Agentic RAG”。
    • 重叠分块 & 多粒度检索: 使用具有显着重叠的分块,并构建多层索引(例如,文档、章节、段落级别)。 这采用了一种结合了粗粒度和细粒度的检索策略。

    尽管概念简单明了,但每种方法都提出了独特的挑战。 在金融报告分析的场景中,常常需要处理长篇的财务报表,理解不同章节之间的关联关系。分层索引可以帮助 Agent 快速定位到相关的章节,并进行深入分析。

  • 多模态数据: 多模态数据面临存储膨胀问题。文章指出,多模态 RAG (MM-RAG) 作为 2025 年的关键趋势,但到年中未能获得发展动力,主要障碍仍然是支持基础设施的不成熟。后交互模型仍然主导 MM-RAG 管道,这意味着嵌入模型生成张量或多向量。例如,单个图像可以由 1,024 个向量表示,每个向量包含 128 维浮点数。

    尽管一些向量数据库声称提供原生张量支持,但用于实际张量利用的综合解决方案仍然很少。 这种稀缺性源于张量导致的数据急剧扩展,这可能会使存储需求增加多达两个数量级。因此,除了原生张量支持之外,还需要整体方法来缓解存储膨胀,例如数据库级别的二值量化,向量索引对量化多向量的支持,以及通过重排序器补偿量化造成的精度损失。

    在图像检索的场景中,如果直接使用原始像素数据进行向量化,会导致向量维度过高,存储空间占用过大。可以采用 Multi-Representation Learning (MRL) 来降低每个向量的维度,或者使用 Token 或 Patch 合并来减少向量的数量,从而降低存储成本。

总结与展望

总而言之,2025 年 RAG 核心技术进展相对有限。与此同时,RAG 与 Agent 之间的相互依赖性已大大加深,无论是作为 Agent 记忆的基础还是支持 DeepResearch 能力。 从 Agent 的角度来看,RAG 可能只是众多工具中的一种,但通过管理非结构化数据和记忆,它仍然是最基本和最关键的工具之一。 可以公平地说,如果没有强大的 RAG,Agent 在企业中的实际部署将是不可行的。因此,RAG 作为独特的架构层,其价值现在比以往任何时候都更加突出。

RAG 的真正潜力将通过基础设施和模型的协同发展来实现。虽然RAG目前面临长文本处理和多模态数据支持的挑战,但随着技术的进步和基础设施的完善,RAG将在未来的人工智能应用中发挥更加重要的作用。尤其是在企业级应用中,RAG 技术能够帮助企业更好地管理和利用海量的数据,提高决策效率和智能化水平。