检索增强生成 (RAG)在大模型 (LLM) 应用中扮演着至关重要的角色,它能帮助 LLM 基于真实数据生成回答,从而避免“幻觉”。然而,不同的 RAG 实现之间存在着显著差异,尤其是在处理包含表格、图表和密集文本的复杂文档时,精度 差异更是尤为明显。为了更准确地了解不同平台的 RAG 能力,本文将深入探讨 EyeLevel.ai 最近的一项研究,并分析其对 RAG 应用开发者的重要启示。
1. 研究背景:复杂文档下的RAG精度挑战
EyeLevel.ai 进行了一项针对三种 RAG 平台的对比研究:LangChain/Pinecone、LlamaIndex 和 GroundX。该研究使用了 1146 页的德勤税务文档,并提出了 92 个真实问题,涵盖了文本、表格和图形数据。测试结果显示,不同平台在 RAG 精度 方面存在着巨大差距。
2. 精度结果:GroundX的显著优势
研究结果表明,GroundX 的性能显著优于其他两个平台。具体来说,GroundX 在 精度 上超越 LangChain/Pinecone 53%,更是领先 LlamaIndex 高达 120%。尤其是在处理表格和图形数据相关的问题时,GroundX 的优势更加明显。这一结果强调了在处理复杂文档时,RAG 精度 的重要性,以及选择合适的工具的重要性。
3. 差距原因:内容复杂性与向量检索局限性
导致如此大 精度 差距的原因主要有两个:
- 内容复杂性: 真实的 PDF 文档包含大量的表格、图表和混合格式,这些对于通用的 RAG 解决方案来说,难以提取出供 LLM 使用的有效信息。例如,LangChain 和 LlamaIndex 在处理表格数据时,往往难以准确识别表格中的关键信息,导致回答错误或无法回答。
- 向量检索局限性: LangChain 和 LlamaIndex 主要依赖于语义相似性(余弦距离)进行向量检索,这种方法在处理精确的表格或结构化数据时,常常会失效。例如,当问题需要从表格中提取特定数值时,简单的语义相似性可能无法准确定位到包含该数值的表格行和列,从而导致 RAG 系统无法给出正确答案。
4. GroundX的独特优势:高级文档解析
GroundX 能够脱颖而出的关键在于其高级文档解析能力。具体来说,GroundX 采用了以下策略:
- 识别离散“对象”: GroundX 能够识别文档中的离散“对象”,例如表格、图表和文本块。这种对象识别能力使得 GroundX 能够将文档分解成更小的、更易于处理的单元,从而提高信息提取的 精度。
- 精调的视觉+解析流水线: GroundX 使用了精调的视觉和解析流水线,专门用于处理各种类型的文档对象。例如,对于表格,GroundX 能够识别表格的结构,提取表格中的数据,并将其转换为 LLM 可以理解的格式。
- 语义优化的内容重写: GroundX 能够对文档内容进行语义优化重写,从而提高检索的相关性,减少错误。这种语义优化过程可以帮助 LLM 更好地理解文档的含义,并更准确地回答问题。
5. 真实案例分析:表格数据、图形数据与文本定义变更
为了更具体地了解 GroundX 的优势,我们来看几个真实案例:
- 表格数据查询:
- 问题: “比利时的分支机构利率是多少?”
- GroundX: 25% (正确)
- LangChain/Pinecone: “未说明” → 没有给出具体的答案
- LlamaIndex: “未包含” → 完全遗漏
- 在这个案例中,GroundX 能够准确地从表格中提取出比利时的分支机构利率,而其他两个平台则未能成功。这表明 GroundX 在处理表格数据方面具有显著的优势。
- 图形数据查询:
- 问题: “私募股权基金的资本成本是多少?”
- GroundX: “25%+” (正确)
- LlamaIndex: 不正确的 “SOFR+600–1,000”
- LangChain/Pinecone: 无法找到答案。
- 在这个案例中,GroundX 能够准确地从图形数据中提取出私募股权基金的资本成本,而 LlamaIndex 给出了错误的答案,LangChain/Pinecone 则无法找到答案。这表明 GroundX 在处理图形数据方面也具有显著的优势。
- 文本定义变更:
- 问题: “’工厂’ 的定义是如何变化的?”
- GroundX: 提供了详细的前后定义 (准确)
- 竞争对手: 完全错过了细微差别。
- 在这个案例中,GroundX 能够准确地识别出 “工厂” 定义的变化,并提供详细的前后定义,而其他平台则未能捕捉到这一细微差别。这表明 GroundX 在处理文本数据,特别是识别语义变化方面也具有优势。
这些案例充分说明了 GroundX 在处理复杂文档时,能够提供更准确、更可靠的 RAG 服务。
6. 并非完美:边缘情况下的局限性
尽管 GroundX 在 精度 方面表现出色,但在某些边缘情况下,它也存在一定的局限性。例如,在询问电信公司是否属于“开放数据”或“开放金融”时,GroundX 给出了一个通用的、模棱两可的回答。令人惊讶的是,LlamaIndex 却正确地识别出 “开放数据”。这表明,没有任何一种 RAG 解决方案是完美无缺的,即使是表现最好的系统,也可能在某些情况下犯错。
7. 对AI开发者的启示
这项研究对 AI 开发者提出了以下重要启示:
- RAG质量差异巨大: 不同的 RAG 框架之间存在着巨大的差异,精度 差异甚至可以高达 50% 以上。因此,在选择 RAG 框架时,需要进行充分的评估和测试,选择最适合自身需求的框架。
- 内容性质至关重要: 文本、表格和图形数据需要不同的解析策略。通用的向量方法往往会失效。因此,在构建 RAG 系统时,需要根据文档的内容类型选择合适的解析方法。
- 选择合适的工具: 对于高风险的 RAG 任务(例如,法律、医疗、税务),采用高级文档解析平台的性能优于简单的工具。这些平台通常能够提供更准确、更可靠的 RAG 服务,从而降低出错的风险。
- 彻底验证: 始终要在真实世界的结构化文档上评估 RAG 流水线,而不仅仅是在孤立的干净数据集上。真实世界的文档往往更加复杂,包含了各种噪声和干扰,因此更能反映 RAG 系统的真实性能。
8. RAG的未来展望
EyeLevel.ai 认为 RAG 技术仍在不断发展。未来的评估将测试 Amazon Q、OpenAI GPTs 以及针对保险、医疗和法律领域优化的新工作流程。 这些测试将有助于我们更深入地了解 RAG 技术的最新进展,并为未来的 RAG 应用开发提供指导。
9. 最终思考:RAG精度至关重要
如果您的 RAG 应用需要在复杂的文档上下文中提供可靠的答案,那么 精度 至关重要。精度 不仅会影响用户信任,还会影响系统的可靠性。GroundX 通过其基于对象的解析和语义重写,为提高 RAG 精度 迈出了重要一步。但是,随着 RAG 生态系统的不断发展,针对真实世界数据的持续基准测试仍然至关重要。只有通过持续的测试和改进,我们才能构建出更准确、更可靠的 RAG 系统,从而更好地服务于各行各业。
想要更深入地探索这些平台吗?EyeLevel.ai 发布了他们的测试代码和数据,您可以自行进行比较。 通过实际操作,您可以更好地了解不同 RAG 平台之间的差异,并选择最适合您的解决方案。