RAG技术2025年中报告：Agent融合加速，长文本与多模态挑战犹存

2025年过半，回顾上半年，以DeepSeek为代表的大模型热潮逐渐冷却，人工智能进入一个相对平稳的时期。在检索增强生成 (RAG) 领域，学术论文产出虽多，但突破性进展相对有限。同时，市场炒作逐渐转向，一些观点认为“Agent 可以取代 RAG”，甚至出现了将 RAG 重新包装为“Agentic RAG”的趋势。本文旨在对 RAG 技术及其与 Agent 的融合现状进行年中评估，澄清概念，并探讨未来的发展方向，尤其关注长文本推理和多模态数据处理方面的挑战。

RAG 与 Agent 的融合：记忆与推理的演进

2023 年的 “Fine-tuning Debate” 和 2024 年的 “Long-Context Disputes” 之后，2025 年关于 RAG 的讨论有所减少，而 Agent 系统则获得了更多关注。一些人甚至认为 Agent 消除了对 RAG 的需求。然而，这种观点忽略了 RAG 在 Agent 系统中扮演的关键角色，尤其是在记忆和推理方面。RAG 通过索引、遗忘和整合等机制，构建了 Agent 的长期记忆，支持任务状态跟踪和上下文加速，与短期记忆协同工作，形成完整的记忆架构。没有强大的 RAG 支持，Agent 的长期记忆将是不可持续的。

文章将 “Agent” 定义为包含工作流和智能 Agent 的综合概念。RAGFlow 的早期版本将 Agent 局限于工作流功能，而未来的版本将实现真正的 Agent 功能。这种整合设计理念强调工作流和 Agent 的内在统一性。Agent 通过手动或模型驱动的反射循环，解决 RAG 的推理挑战，实现智能突破。这三者是密不可分的。

事实上，无论是Prompt-Driven Reflection还是Training-Dependent Reflection，都依赖于RAG技术作为知识来源和支撑。例如，在金融领域的智能客服应用中，Agent 需要根据用户提出的问题，从海量的金融知识库中检索相关信息，并进行推理，最终给出专业的解答。RAG 技术能够帮助 Agent 快速准确地找到所需的信息，提高客服效率和用户满意度。

Agentic RAG：工作流 vs. 基于 Agent 的方法

文章区分了两种 Agentic RAG 方法：基于工作流的方法和基于 Agent 的方法。

基于工作流的方法： 采用手动定义的 RAG 和 Agent 之间的交互，通过迭代和切换等组件实现反射。RAGFlow 早期版本就属于此类。这种方法适用于处理意图模糊和长上下文理解等推理挑战。例如，在问答系统中，可以设计一个工作流，首先通过 RAG 检索相关文档，然后使用 Agent 进行意图识别和答案抽取，最后将答案呈现给用户。
基于 Agent 的方法： 使用模型自主驱动反射，例如 Search O1、DeepResearch 等。这些方法又分为 Prompt-Driven Reflection (依赖 LLM prompting) 和 Training-Dependent Reflection (通过强化学习学习领域特定的思维链 CoT 和终止条件)。这种方法更加灵活，可以适应不同的任务和场景。例如，可以训练一个 Agent，使其能够根据用户的问题自动选择合适的 RAG 方法和推理策略，从而提高问答的准确性和效率。

需要强调的是，Search R1 等方法并非绝对优越。它们的主要作用是优化通用 LLM 中特定领域数据的 CoT 和终止条件，本质上仍然依赖于基于 prompt 的 Agent 框架。

Agent 记忆：RAG 的长期支持

RAG 构建了 Agent 的长期记忆，并通过索引、遗忘和整合等机制，支持任务状态跟踪和上下文加速。而 Agent 的短期记忆通常保存 Agent 的会话互动和个性化数据，以原始或未处理的形式存在。高价值数据通过整合转移到长期记忆中。

OpenAI 投资 Supabase，旨在为 Agent 提供更易访问的工具，并部分提供内存管理。从 Agent 的角度来看，RAG 和各种数据基础设施解决方案在功能上是等效的，都只是 Agent 上下文中的工具。但是，RAG 与记忆之间的内在联系使 RAG 与其他数据基础设施组件区分开来。

Agent 记忆需要提供索引、遗忘和整合等关键功能。

索引： 提供超出简单查询的先进搜索功能。例如，在客户服务系统中，需要根据客户的历史记录和偏好，快速检索相关信息，以便提供个性化的服务。
遗忘： 有意遗忘，模拟人类认知。遗忘有助于保持专注，从技术上讲，较小的数据集通常可以提高搜索精度。例如，可以定期清理过时的或不相关的数据，以提高系统的效率和准确性。
整合： 意味着“加强”，通过总结和注释存储的数据来模拟认知过程。在技术上，它与 RAG 范例中的 GraphRAG 非常相似，LLM 将内存内容组织成知识图，通过提供更丰富的上下文来增强回忆。例如，可以将客户的聊天记录和订单信息整合到一个知识图中，以便更好地理解客户的需求和偏好。

RAG 技术瓶颈：长文本、多模态与基础设施

2025 年 RAG 相关论文持续发表，但在概念和系统方面的真正创新却很少。RAG 技术是否已经达到关键平台期？RAG 的核心依赖于信息检索 (IR)，这是一个成熟的领域。但是，RAG 提出了超越传统 IR 的新挑战，包括查询多样性和多模态数据。

长文本推理： 长上下文推理依赖于分层索引。目前，针对超长文本的检索与推理，主要有以下几种方法：
- 不分块，全文检索： 跳过分块，根据简短的查询直接召回整个文档，并将其直接输入上下文。这种方法适用于少量文档，但由于对全局文档上下文的理解较差，因此在规模化时会遇到困难，导致召回相关性较低。
- 分层索引 & 文档内 Agentic RAG： 在摄取过程中构建反映文档结构（例如，章节、子章节）的树状索引。召回发生在文档级别，然后使用分层索引在文档内进行结构化遍历，以定位相关块，从而在文档内实现“Agentic RAG”。
- 重叠分块 & 多粒度检索： 使用具有显着重叠的分块，并构建多层索引（例如，文档、章节、段落级别）。这采用了一种结合了粗粒度和细粒度的检索策略。
尽管概念简单明了，但每种方法都提出了独特的挑战。在金融报告分析的场景中，常常需要处理长篇的财务报表，理解不同章节之间的关联关系。分层索引可以帮助 Agent 快速定位到相关的章节，并进行深入分析。
多模态数据： 多模态数据面临存储膨胀问题。文章指出，多模态 RAG (MM-RAG) 作为 2025 年的关键趋势，但到年中未能获得发展动力，主要障碍仍然是支持基础设施的不成熟。后交互模型仍然主导 MM-RAG 管道，这意味着嵌入模型生成张量或多向量。例如，单个图像可以由 1,024 个向量表示，每个向量包含 128 维浮点数。

尽管一些向量数据库声称提供原生张量支持，但用于实际张量利用的综合解决方案仍然很少。这种稀缺性源于张量导致的数据急剧扩展，这可能会使存储需求增加多达两个数量级。因此，除了原生张量支持之外，还需要整体方法来缓解存储膨胀，例如数据库级别的二值量化，向量索引对量化多向量的支持，以及通过重排序器补偿量化造成的精度损失。

在图像检索的场景中，如果直接使用原始像素数据进行向量化，会导致向量维度过高，存储空间占用过大。可以采用 Multi-Representation Learning (MRL) 来降低每个向量的维度，或者使用 Token 或 Patch 合并来减少向量的数量，从而降低存储成本。

总结与展望

总而言之，2025 年 RAG 核心技术进展相对有限。与此同时，RAG 与 Agent 之间的相互依赖性已大大加深，无论是作为 Agent 记忆的基础还是支持 DeepResearch 能力。从 Agent 的角度来看，RAG 可能只是众多工具中的一种，但通过管理非结构化数据和记忆，它仍然是最基本和最关键的工具之一。可以公平地说，如果没有强大的 RAG，Agent 在企业中的实际部署将是不可行的。因此，RAG 作为独特的架构层，其价值现在比以往任何时候都更加突出。

RAG 的真正潜力将通过基础设施和模型的协同发展来实现。虽然RAG目前面临长文本处理和多模态数据支持的挑战，但随着技术的进步和基础设施的完善，RAG将在未来的人工智能应用中发挥更加重要的作用。尤其是在企业级应用中，RAG 技术能够帮助企业更好地管理和利用海量的数据，提高决策效率和智能化水平。

RAG技术2025年中报告：Agent融合加速，长文本与多模态挑战犹存