在数字化时代,我们经常需要从PDF等格式的文档中提取有意义的数据。尤其是那些包含复杂布局的文档,如表格、图表或表单,这些文档的文本提取常常受限于OCR(光学字符识别)技术的局限性。OCR技术虽然在提取原始文本方面表现出色,但它忽略了对文档真正理解至关重要的结构关系。现在,Agentic文档提取技术应运而生,它不仅保留了视觉和空间上下文,还能精确地指向PDF中支持AI生成答案的确切区域,我们称之为“视觉定位”。无论是分析财务报告、学术论文、医疗表格还是法律合同,这种方法都能确保可验证的参考,并显著减少幻觉现象。这样,你不仅能从文档中提取意义,还能对提供的答案建立信心。
Agentic文档提取技术概述
在本文中,我们将探讨以下几个方面:
- 分析OCR如何提取原始文本但未能捕捉结构(表格、图形、空间关系)的问题,并分析ChatGPT的PDF上传功能,虽然提高了理解能力,但缺乏精确的文档定位,容易出现幻觉。
- 介绍Agentic文档提取技术,并讨论其如何保留视觉结构、空间关系,并提取可验证的参考。
- 从AI研究论文中提取实际例子,我们上传arXiv论文(例如,“Attention Is All You Need”,“DeepSeek-R1”),并说明Agentic文档提取技术如何正确识别概念、表格结果和关键图形,同时在视觉上定位答案。
OCR的局限性
OCR技术专为文本提取而设计,但它忽略了对文档理解至关重要的结构关系(许多是视觉性质的)。OCR常见的问题包括:
- 丢失关键视觉元素,如表格、图形和复选框。
- 未能捕捉文本与注释、标题或图表之间的关系。
- 在多栏布局、手写元素和非标准字体方面表现挣扎。
例如,如果你上传了一篇来自arXiv的研究论文,OCR可能会提取文本,但不会识别图像、表格结构或不同部分之间的空间关系。
ChatGPT基于PDF上传的局限性
直接将PDF上传到ChatGPT,通过让LLM对提取的文本进行推理,比简单的OCR提高了理解能力。然而,这仍然缺乏对文档布局的结构化理解。基于ChatGPT的PDF上传常见问题包括:
- 对线性文本表现良好,但对结构化内容如表格、复选框或图表表现不佳。
- 无法精确定位文档中答案的确切位置。
- 容易出现幻觉,常常因为缺少结构化输入而编造答案。
例如,如果你询问“Attention Is All You Need”的作者,ChatGPT会成功。但如果你尝试使用DeepSeek-R1论文,它很可能会失败。为什么呢?因为“Attention Is All You Need”的作者在第一页标题下方清楚地列出,而DeepSeek-R1有一份跨越最后三页的长贡献者名单,ChatGPT可能无法准确提取。
Agentic文档提取技术与多模态LLM的比较
Agentic文档提取技术与OCR和基于LLM的PDF处理不同,它将文档视为结构化的视觉表示,从而实现更准确和可验证的答案。
- 理解复杂布局:提取文本、表格、图表和表单字段,同时保留它们的布局和关系(稍后将详细介绍这种保留是如何实现的)。
- 视觉定位:每个提取的元素都与其在文档中的确切位置相关联(你能猜到怎么做吗?提示:它存储了与提取元素一起的边界框坐标!)。
- 准确提取图像和图表:从图表、表格和复杂的视觉布局中准确提取数据。消除了仅文本分析中常见的错误和部分解释。使得跨行业的精确洞察能够全面捕获数据。
Agentic文档提取技术的实际应用
我构建了一个简单的Streamlit应用程序,称为Multi-PDF Research Paper QA Assistant,它利用LandingAI的Agentic文档提取API逐页处理学术文档,使用AI提取结构化内容,并允许用户提出自然语言问题,答案由原始PDF中的视觉证据支持。在本文中,我将重点介绍这项技术的关键差异,并以示例帮助说明。在第二部分(下周发布)中,我将介绍如何构建这个应用程序,并深入探讨利用这个API进行视觉定位和为每个相关区域生成相关推理的幕后细节。
LLM失败的地方,Agentic文档提取技术如何表现出色
现在,让我们来看一些实际例子,传统LLM失败,但Agentic文档提取技术却能神奇地工作。
示例1:从DeepSeek-R1论文中提取准确性
我上传了“DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning”并要求它找到4000步时的R1-zero-pass@1准确性。
- ChatGPT结果:40%(错误)
- 正确答案:60%(由Agentic文档提取技术正确提取)
Agentic文档提取技术提供:
- 正确答案。
- 解释为什么选择这个答案。
- 视觉定位,将答案链接到PDF的确切区域。
得益于Agentic文档提取API,执行视觉定位变得容易。
- 解释形成答案背后的整体论点,以及来自上传PDF不同页面的支持证据列表,每个都附有为什么选择该特定部分或PDF部分的相应推理。
示例2:在Transformer架构中识别Softmax
我问在“Attention Is All You Need”的图2中Softmax在哪里应用。
- ChatGPT在混乱和不完整的视觉分解中挣扎。
- Agentic文档提取技术准确地提取了相关图形部分,并在视觉上突出显示了答案。
ChatGPT 4o模型响应
ChatGPT 4o模型试图通过生成混乱的图像在视觉上分解答案
以下是使用我们的API显示答案的所有截图:
再次,你得到了形成答案背后的整体解释,以及来自上传PDF不同页面的支持证据列表,每个都附有为什么选择该特定部分或PDF部分的相应推理。
示例3:检查图形以获取确切证据
之前的提示可能有点令人困惑,但请注意,当我提示系统明确检查图1时会发生什么。它能够在图形中视觉上定位答案并提供确切证据:
我相信,到现在为止,你一定对这项技术如何在你的领域中发挥作用感到惊讶,并已经开始想象如何从你的数据中提取有意义的洞察,同时确保视觉上的事实基础,建立对答案的信心——提供确切的证据,并将幻觉减少到几乎为零!
构建一个真正理解文档布局的“与PDF对话”工具不再只是一厢情愿的想法。通过利用Agentic文档提取技术,你可以提供一个端到端的解决方案,它不仅回答问题,还指向支持这些答案的精确PDF区域。