在数字化时代,从扫描文档中提取有效信息,如教科书、研究论文或商业报告,仍然面临着巨大挑战。原因在于文档不仅仅是简单的文本,它们混合了文本段落、表格、公式、图形等多种元素,并且往往以复杂的布局排列。传统的解决方案要么是将多个专业模型拼接在一起(速度慢且复杂),要么依赖于庞大的AI模型,但这些模型在处理长文档时往往会丢失结构细节。Dolphin 的出现,代表了一种全新的文档图像解析思路,为解决上述问题提供了新的希望。Dolphin 模型通过巧妙的设计,在准确性、速度和灵活性之间取得了前所未有的平衡,并且以开源的方式供所有人使用,有望彻底改变文档处理领域的格局。
核心:突破传统文档图像解析瓶颈
传统文档图像解析方法面临着多重挑战,首要问题是复杂性。由于文档包含多种元素,需要针对不同类型的内容设计专门的模型。例如,需要一个模型来识别文本,另一个模型来解析表格,还需要一个模型来处理公式。这种方法不仅效率低下,而且维护成本高昂。其次,传统方法在处理长文档时往往会遇到困难。大型AI模型虽然在处理单页文档时表现出色,但在处理多页文档时,由于内存限制和注意力衰减,往往会丢失文档的结构信息。例如,模型可能无法正确识别表格的标题和内容之间的对应关系,或者无法理解不同段落之间的逻辑关系。此外,现有方案在速度和精度之间难以达到平衡。为了提高精度,模型通常需要进行大量的计算,这会导致处理速度变慢。反之,为了提高速度,模型可能会牺牲精度,导致解析结果不准确。Dolphin 模型的出现,正是为了解决这些难题,它通过全新的架构设计,在准确性、速度和灵活性之间取得了突破。
架构:分析先行,并行解析
Dolphin 的核心在于其独特的两阶段“分析-解析”架构,有效地规避了传统方法的缺陷。第一阶段是布局分析。Dolphin 首先扫描整个文档,识别出所有元素,包括标题、段落、表格、公式和图形等,并将它们按照自然的阅读顺序排列。重要的是,Dolphin 能够保留元素之间的关系,例如,图形和它的标题,表格和它的标题。这一步至关重要,因为它为后续的并行解析奠定了基础。第二阶段是并行解析。这是 Dolphin 的创新之处。Dolphin 并非逐个处理元素,而是利用第一阶段获得的布局锚点,结合特定任务的提示(例如,“解析这个表格”),同时解码所有元素。这种并行设计是提高速度的关键。
例如,假设有一篇包含复杂表格和公式的科学论文。传统的解析方法可能需要先识别文本,然后识别表格,最后识别公式,整个过程需要耗费大量时间。而 Dolphin 可以同时处理这些元素,极大地提高了效率。更具体地说,Dolphin 会根据表格的布局信息和“解析这个表格”的提示,直接将表格转换为 HTML 格式,同时根据公式的布局信息和“解析这个公式”的提示,准确地识别公式的内容。
优势:轻量级、高效、精准
Dolphin 架构的优势体现在以下几个方面:
- 轻量级:Dolphin 仅有 3.22 亿个参数,远小于 GPT-4 或 Claude 3.5 等大型模型。这意味着 Dolphin 可以在资源有限的设备上运行,例如移动设备或嵌入式系统。更小的模型尺寸也意味着更快的加载速度和更低的能耗。
- 高效:并行解析将处理时间缩短了近一半。传统的文档图像解析方法需要逐个处理文档中的元素,而 Dolphin 可以同时处理多个元素,从而显著提高了效率。
- 精准:提示引导模型以最佳方式处理每种元素类型(表格 → HTML,文本 → 纯 Markdown)。通过为不同类型的元素提供特定的提示,Dolphin 可以更好地理解文档的结构和内容,从而提高解析的准确性。
例如,在解析表格时,Dolphin 可以利用表格的布局信息和“解析这个表格”的提示,准确地识别表格的行、列和单元格,并将表格转换为 HTML 格式,方便后续处理。在解析公式时,Dolphin 可以利用公式的结构信息和“解析这个公式”的提示,准确地识别公式中的符号、变量和运算符,并将公式转换为 LaTeX 格式,方便后续编辑和显示。
性能:超越传统模型,数据说话
Dolphin 的性能在各项基准测试中都超越了专门的和通用的 AI 模型。它在 3000 万个样本(页面 + 孤立元素)上进行了训练,证明了其卓越的性能。
- 页面级解析 (表 1):
- 纯文本文档:编辑距离 (EN) 为 0.0114,(ZH) 为 0.0131 — 历史最佳记录。编辑距离是一种衡量文本相似度的指标,数值越小表示相似度越高。Dolphin 在纯文本文档上的表现非常出色,表明它能够准确地识别文本内容。
- 复杂文档(表格 + 公式):编辑距离为 0.1028 — 比 GPT-4o 等顶级竞争对手高出 40%。这表明 Dolphin 在处理包含复杂表格和公式的文档时,能够更好地保留文档的结构信息和内容。
- 元素级解析 (表 3):
- 文本:接近完美的识别 (0.0029 ED)。这进一步证实了 Dolphin 在文本识别方面的卓越性能。
- 公式:印刷方程式的准确率为 98.5%。这表明 Dolphin 能够准确地识别公式中的符号、变量和运算符,即使是复杂的公式也能准确识别。
- 表格:结构相似度 (TEDS) 为 96.25%。TEDS 是一种衡量表格结构相似度的指标,数值越高表示相似度越高。Dolphin 在表格解析方面的表现非常出色,表明它能够准确地识别表格的行、列和单元格,并保留表格的结构信息。
- 速度:0.17 FPS — 比 Mathpix 快 2 倍,比 Nougat 快 5 倍。FPS(每秒帧数)是一种衡量处理速度的指标,数值越大表示速度越快。Dolphin 在速度方面的优势非常明显,这使得它能够快速处理大量的文档。
这些数据充分证明了 Dolphin 在文档图像解析方面的强大能力,它不仅在准确性方面超越了传统模型,而且在速度方面也具有显著优势。
应用:广泛灵活,落地性强
Dolphin 并非只适用于学术 PDF。它还可以处理:
- 包含密集数学的教科书
- 手机截图
- 收据、表格和网页截图
- 多栏学术论文
它支持 15 种以上的元素类型(标题、标题、脚注、代码块等),并输出干净的 Markdown 或 HTML,可供下游使用。Dolphin 的灵活性和通用性使其能够应用于各种场景,例如:
- 学术研究:研究人员可以使用 Dolphin 从学术论文中提取数据,例如表格中的数据或公式中的变量。这可以帮助研究人员更快地分析数据,发现新的规律。
- 商业领域:企业可以使用 Dolphin 从报告、发票或手册中提取数据。这可以帮助企业自动化数据录入流程,提高工作效率。
- 教育领域:学生可以使用 Dolphin 从教科书中提取知识点,例如公式或定义。这可以帮助学生更好地理解课程内容,提高学习效率。
- 个人应用:个人可以使用 Dolphin 从收据、表格或网页截图中提取信息。例如,可以使用 Dolphin 从收据中提取商品名称和价格,用于记账。
Dolphin 的广泛应用前景使其成为文档处理领域的一款重要工具。
意义:架构优于蛮力,开启新纪元
Dolphin 证明了更智能的架构胜过蛮力缩放。通过将布局分析与内容解析分离,它实现了整体模型无法实现的目标:以高速实现精准。传统的大型 AI 模型往往依赖于大量的计算资源和数据,但它们在处理复杂文档时仍然会遇到困难。Dolphin 则通过巧妙的架构设计,在有限的资源下实现了卓越的性能。这表明,在文档处理领域,更智能的架构设计比单纯的增加模型规模更有效。
Dolphin 的出现,标志着文档图像解析领域进入了一个新的纪元。它不仅提供了一种更高效、更准确的文档处理方法,而且也为未来的研究方向提供了新的思路。未来的文档处理技术将不再仅仅依赖于大型 AI 模型,而是会更加注重架构设计和算法优化,以实现更高的效率和更低的成本。
未来:开源共享,共同进步
Dolphin 已在 GitHub 上开源:github.com/ByteDance/Dolphin。它的开源为研究人员和开发者提供了一个宝贵的资源,他们可以利用 Dolphin 的代码和模型,开发新的文档处理应用。同时,开源也有助于促进 Dolphin 的发展,吸引更多的贡献者参与其中,共同完善 Dolphin 的功能。
文档理解的未来不仅仅是更大的模型 — 而是更智能的管道。而 Dolphin 正在引领这一方向。我们相信,在开源社区的共同努力下,Dolphin 将会不断发展壮大,成为文档处理领域的一款重要工具,为各行各业带来便利。未来的文档处理技术将更加智能、更加高效、更加灵活,而 Dolphin 将在这一进程中发挥重要的作用。它不仅改变了我们处理文档的方式,也为我们打开了通往更智能文档理解的未来之门。