Dolphin：文档图像解析领域的两阶段突破

在日益数字化的世界中，准确高效地文档图像解析能力变得至关重要。传统的OCR（光学字符识别）和文档布局分析模型虽然取得了显著进展，但在处理复杂布局、多语言内容和高度结构差异时，往往显得力不从心。本文将深入探讨由字节跳动开发的创新视觉语言模型Dolphin，该模型通过优雅的两阶段策略克服了这些挑战，并分析其架构、数据训练策略、性能和影响。

文档图像解析的挑战

文档图像解析之所以具有挑战性，是因为文档通常包含各种元素，例如段落、表格、图形、标题、公式、页眉和页脚等。它们可能以单列、双列或非标准布局呈现。传统的解决方案要么将多个专家模型组合成一个pipeline（高度专业化，但难以集成），要么使用通用的视觉语言模型（例如GPT-4V）进行自回归解码（更简单，但效率低下且结构不足）。Dolphin 试图融合两者的优点，构建一个轻量级、高效且准确的系统。例如，对于包含复杂表格和数学公式的科技论文，传统方法可能需要多个独立的OCR引擎和布局分析器协同工作，导致效率低下且容易出错。而Dolphin则能够统一处理这些元素，显著提高解析效率和准确性。

Dolphin 的核心：分析-解析范式

Dolphin 采用两阶段策略，即“分析-然后-解析”范式。第一阶段进行页面级布局分析，生成按阅读顺序排列的结构化布局序列；第二阶段进行元素级内容解析。

第一阶段：页面级布局分析

目标：理解文档结构。
工作方式：识别和排序文档页面上的元素（例如，标题、段落、图形、表格等）。
实现：使用 Swin Transformer 编码器处理视觉输入，并使用由提示（P_layout）引导的 mBART 解码器生成自然阅读顺序的布局元素序列。
优势：保留元素之间的关系，例如，识别哪个标题属于哪个图形，或者哪个段落跟随哪个节标题。

例如，对于一份报纸的扫描件，Dolphin 首先会识别出报纸的标题、主要文章、图片说明、广告等元素，并按照报纸的排版顺序进行排序。这一步的关键在于理解文档的整体结构，为后续的内容提取打下基础。想象一下，如果没有这一步，模型可能会将报纸上的广告文字误认为是新闻内容，导致解析结果的混乱。

第二阶段：元素级内容解析

目标：从每个元素中提取内容。
工作方式：使用第一阶段检测到的元素作为锚点，并使用元素特定的提示生成每个元素的内容。
实现：裁剪每个元素的图像区域，使用 Swin Transformer 重新编码，并使用 mBART 并行解码其内容。
优势：能够针对不同类型的元素进行专门的解析，例如，使用不同的提示来解析文本段落、表格和公式。

例如，在第一阶段识别出某个区域是一个表格后，Dolphin 会裁剪出这个表格的图像区域，并使用专门为表格设计的提示（P_table）来指导 mBART 解码器提取表格中的数据。这个过程就像一个专业的表格数据提取工具，能够准确地识别出表格的行、列、标题和数据，并将它们以结构化的形式输出。

关键组件：Swin Transformer 和 mBART

Dolphin 的核心组件包括 Swin Transformer 编码器和 mBART 解码器。

Swin Transformer (编码器)

层级视觉Transformer： 以逐步增大的窗口处理图像。
高效且可扩展： 窗口大小为 7，层配置为 [2, 2, 14, 2]，它捕获精细的细节和全局文档布局。
嵌入维度： 将每个patch转换为 512D 或 1024D 向量，编码其上下文丰富的特征。

Swin Transformer 是一种先进的视觉 Transformer 模型，它通过分层的方式处理图像，能够有效地捕捉不同尺度的视觉信息。在 Dolphin 中，Swin Transformer 的作用是将文档图像转换为一系列具有丰富上下文信息的向量，这些向量包含了文档的布局、内容和结构信息。例如，Swin Transformer 能够识别出文档中的标题、段落、图片和表格等元素，并了解它们之间的关系。

mBART (解码器)

一种多语言、序列到序列的Transformer。
在两个阶段中使用，以解码布局序列或元素内容。
基于来自编码的视觉特征的交叉注意力，自回归地生成输出。

mBART 是一种强大的视觉语言模型，擅长于生成自然语言文本。在 Dolphin 中，mBART 的作用是将 Swin Transformer 编码的视觉信息转换为人类可读的文本。例如，在页面级布局分析阶段，mBART 会根据 Swin Transformer 提供的视觉信息，生成描述文档布局的文本序列，例如“标题-段落-图片-表格”。在元素级内容解析阶段，mBART 会根据 Swin Transformer 提供的视觉信息，生成每个元素的具体内容，例如提取表格中的数据。

提示和锚点：引导模型行为

提示（Prompts）用于指导模型的行为。Playout 用于结构识别。Ptable、P_paragraph 等用于内容解析。这些元素特定的提示显著提高了精度，优于通用提示。

在文档图像解析任务中，提示的作用至关重要。它们可以引导模型关注特定的信息，并生成更加准确的结果。例如，在解析表格时，使用 Ptable 提示可以告诉模型这是一个表格，需要提取其中的数据。而在解析段落时，使用 Pparagraph 提示可以告诉模型这是一个段落，需要提取其中的文本。

锚点则是指定模型关注的区域。在元素级内容解析阶段，Dolphin 使用第一阶段检测到的元素作为锚点，这可以有效地缩小模型的搜索范围，提高解析效率。例如，在解析一个表格时，Dolphin 会将表格的四个角点作为锚点，然后只关注这个区域内的内容。

大规模训练：提升泛化能力

Dolphin 使用超过 3000 万个样本进行训练，这些样本来自各种领域（HTML、Markdown、LaTeX、科学文档和公式）。数据在页面级和元素级粒度上收集，从而实现强大的泛化能力。图像输入调整为最长边为 896px，并填充到 896×896 的正方形以进行归一化。

大规模训练是提升视觉语言模型性能的关键。通过使用大量的训练数据，Dolphin 可以学习到各种文档的布局、结构和内容特征，从而提高其在实际应用中的泛化能力。此外，Dolphin 还采用了数据增强技术，例如旋转、缩放和裁剪，以进一步提升模型的鲁棒性。

性能亮点：精度与效率并存

Dolphin 在精度和效率方面都表现出色：

页面级解析：编辑距离（Edit Distance）降低。
元素级解析：
- 文本段落： Dolphin 实现了接近人类水平的解析，编辑距离低至 0.0029。这意味着 Dolphin 能够几乎完美地提取文本段落的内容，与人工标注的结果几乎没有差别。
- 公式： CDM（Correct Detection Metric）得分达到 0.9850，优于专用模型。这表明 Dolphin 在公式识别方面具有很高的准确性，甚至超过了一些专门用于公式识别的模型。
- 表格： 在 PubTabNet 和 PubTab1M 上优于竞争对手，TEDS（Tree Edit Distance Similarity）得分为 0.9625。这证明了 Dolphin 在表格数据提取方面的卓越性能，能够在复杂的表格结构中准确地识别和提取数据。

消融研究：揭示 Dolphin 的独特之处

为了更深入地了解 Dolphin 的性能来源，研究人员进行了一系列消融研究，以评估不同组件对模型性能的影响。例如，他们发现移除 Swin Transformer 或 mBART 会导致模型性能显著下降，这表明这两个组件在 Dolphin 中都起着至关重要的作用。此外，他们还发现使用元素特定的提示可以显著提高解析精度，这证明了提示在指导模型行为方面的重要性。这些消融研究有助于我们更好地理解 Dolphin 的内部工作机制，并为未来的模型改进提供指导。

实际案例分析：Dolphin 在各行业的应用

Dolphin 的卓越性能使其在各行业都具有广泛的应用前景。

金融行业： Dolphin 可以用于自动解析财务报表、合同和其他文档，从而提高数据录入和分析的效率。例如，它可以自动识别财务报表中的资产负债表、利润表和现金流量表，并提取其中的关键数据，例如收入、成本、利润和现金流。
法律行业： Dolphin 可以用于自动解析法律文件、合同和判决书，从而帮助律师快速查找相关信息。例如，它可以自动识别法律文件中的条款、条件和定义，并提取其中的关键信息，例如当事人的权利和义务。
医疗行业： Dolphin 可以用于自动解析医疗记录、病历和处方，从而提高医疗服务的效率和准确性。例如，它可以自动识别病历中的症状、诊断和治疗方案，并提取其中的关键信息，例如药物名称、剂量和用法。
教育行业： Dolphin 可以用于自动解析教材、试卷和作业，从而帮助教师更好地管理教学资源。例如，它可以自动识别教材中的标题、段落和图片，并提取其中的关键信息，例如知识点、例题和习题。
科研领域： 可以用于解析科技文献，提取公式、表格等关键信息，帮助科研人员快速获取所需信息，例如自动提取论文中的实验数据、方法和结论。

Dolphin 的未来展望

Dolphin 在文档图像解析领域迈出了重要一步。通过将视觉 Transformer 的布局感知能力与 mBART 等视觉语言模型的语言生成能力相结合，它以实用的速度提供了一流的性能。其模块化、提示驱动的架构使其易于适应和扩展，为新一代文档AI奠定了基础。“大多数模型看到的是图像或文本，而 Dolphin 看到的是结构。”

可以预见，未来 Dolphin 将会朝着以下几个方向发展：

支持更多语言： 随着全球化的发展，文档的语言种类越来越多。Dolphin 需要支持更多语言，才能更好地满足用户的需求。
处理更复杂的文档： 现实世界中的文档往往比训练数据更加复杂。Dolphin 需要能够处理更复杂的文档，例如包含手写文字、污损或折叠的文档。
实现更高级的功能： 除了基本的文档解析功能外，Dolphin 还可以实现更高级的功能，例如文档摘要、机器翻译和问答。

总而言之，Dolphin 的出现为文档图像解析领域带来了新的希望。它不仅提高了文档解析的精度和效率，而且为未来的文档AI发展奠定了基础。无论您是研究人员、工程师还是技术爱好者，Dolphin 都值得关注。您可以在 https://github.com/ByteDance/Dolphin 亲自尝试。相关论文：https://paperswithcode.com/paper/dolphin-document-image-parsing-via。

Dolphin：文档图像解析领域的两阶段突破