Dolphin：用智能锚点提示革新文档图像解析

在数字化时代，从扫描文档中提取有效信息，如教科书、研究论文或商业报告，仍然面临着巨大挑战。原因在于文档不仅仅是简单的文本，它们混合了文本段落、表格、公式、图形等多种元素，并且往往以复杂的布局排列。传统的解决方案要么是将多个专业模型拼接在一起（速度慢且复杂），要么依赖于庞大的AI模型，但这些模型在处理长文档时往往会丢失结构细节。Dolphin 的出现，代表了一种全新的文档图像解析思路，为解决上述问题提供了新的希望。Dolphin 模型通过巧妙的设计，在准确性、速度和灵活性之间取得了前所未有的平衡，并且以开源的方式供所有人使用，有望彻底改变文档处理领域的格局。

核心：突破传统文档图像解析瓶颈

传统文档图像解析方法面临着多重挑战，首要问题是复杂性。由于文档包含多种元素，需要针对不同类型的内容设计专门的模型。例如，需要一个模型来识别文本，另一个模型来解析表格，还需要一个模型来处理公式。这种方法不仅效率低下，而且维护成本高昂。其次，传统方法在处理长文档时往往会遇到困难。大型AI模型虽然在处理单页文档时表现出色，但在处理多页文档时，由于内存限制和注意力衰减，往往会丢失文档的结构信息。例如，模型可能无法正确识别表格的标题和内容之间的对应关系，或者无法理解不同段落之间的逻辑关系。此外，现有方案在速度和精度之间难以达到平衡。为了提高精度，模型通常需要进行大量的计算，这会导致处理速度变慢。反之，为了提高速度，模型可能会牺牲精度，导致解析结果不准确。Dolphin 模型的出现，正是为了解决这些难题，它通过全新的架构设计，在准确性、速度和灵活性之间取得了突破。

架构：分析先行，并行解析

Dolphin 的核心在于其独特的两阶段“分析-解析”架构，有效地规避了传统方法的缺陷。第一阶段是布局分析。Dolphin 首先扫描整个文档，识别出所有元素，包括标题、段落、表格、公式和图形等，并将它们按照自然的阅读顺序排列。重要的是，Dolphin 能够保留元素之间的关系，例如，图形和它的标题，表格和它的标题。这一步至关重要，因为它为后续的并行解析奠定了基础。第二阶段是并行解析。这是 Dolphin 的创新之处。Dolphin 并非逐个处理元素，而是利用第一阶段获得的布局锚点，结合特定任务的提示（例如，“解析这个表格”），同时解码所有元素。这种并行设计是提高速度的关键。

例如，假设有一篇包含复杂表格和公式的科学论文。传统的解析方法可能需要先识别文本，然后识别表格，最后识别公式，整个过程需要耗费大量时间。而 Dolphin 可以同时处理这些元素，极大地提高了效率。更具体地说，Dolphin 会根据表格的布局信息和“解析这个表格”的提示，直接将表格转换为 HTML 格式，同时根据公式的布局信息和“解析这个公式”的提示，准确地识别公式的内容。

优势：轻量级、高效、精准

Dolphin 架构的优势体现在以下几个方面：

轻量级：Dolphin 仅有 3.22 亿个参数，远小于 GPT-4 或 Claude 3.5 等大型模型。这意味着 Dolphin 可以在资源有限的设备上运行，例如移动设备或嵌入式系统。更小的模型尺寸也意味着更快的加载速度和更低的能耗。
高效：并行解析将处理时间缩短了近一半。传统的文档图像解析方法需要逐个处理文档中的元素，而 Dolphin 可以同时处理多个元素，从而显著提高了效率。
精准：提示引导模型以最佳方式处理每种元素类型（表格 → HTML，文本 → 纯 Markdown）。通过为不同类型的元素提供特定的提示，Dolphin 可以更好地理解文档的结构和内容，从而提高解析的准确性。

例如，在解析表格时，Dolphin 可以利用表格的布局信息和“解析这个表格”的提示，准确地识别表格的行、列和单元格，并将表格转换为 HTML 格式，方便后续处理。在解析公式时，Dolphin 可以利用公式的结构信息和“解析这个公式”的提示，准确地识别公式中的符号、变量和运算符，并将公式转换为 LaTeX 格式，方便后续编辑和显示。

性能：超越传统模型，数据说话

Dolphin 的性能在各项基准测试中都超越了专门的和通用的 AI 模型。它在 3000 万个样本（页面 + 孤立元素）上进行了训练，证明了其卓越的性能。

页面级解析 (表 1)：
- 纯文本文档：编辑距离 (EN) 为 0.0114，(ZH) 为 0.0131 — 历史最佳记录。编辑距离是一种衡量文本相似度的指标，数值越小表示相似度越高。Dolphin 在纯文本文档上的表现非常出色，表明它能够准确地识别文本内容。
- 复杂文档（表格 + 公式）：编辑距离为 0.1028 — 比 GPT-4o 等顶级竞争对手高出 40%。这表明 Dolphin 在处理包含复杂表格和公式的文档时，能够更好地保留文档的结构信息和内容。
元素级解析 (表 3)：
- 文本：接近完美的识别 (0.0029 ED)。这进一步证实了 Dolphin 在文本识别方面的卓越性能。
- 公式：印刷方程式的准确率为 98.5%。这表明 Dolphin 能够准确地识别公式中的符号、变量和运算符，即使是复杂的公式也能准确识别。
- 表格：结构相似度 (TEDS) 为 96.25%。TEDS 是一种衡量表格结构相似度的指标，数值越高表示相似度越高。Dolphin 在表格解析方面的表现非常出色，表明它能够准确地识别表格的行、列和单元格，并保留表格的结构信息。
速度：0.17 FPS — 比 Mathpix 快 2 倍，比 Nougat 快 5 倍。FPS（每秒帧数）是一种衡量处理速度的指标，数值越大表示速度越快。Dolphin 在速度方面的优势非常明显，这使得它能够快速处理大量的文档。

这些数据充分证明了 Dolphin 在文档图像解析方面的强大能力，它不仅在准确性方面超越了传统模型，而且在速度方面也具有显著优势。

应用：广泛灵活，落地性强

Dolphin 并非只适用于学术 PDF。它还可以处理：

包含密集数学的教科书
手机截图
收据、表格和网页截图
多栏学术论文

它支持 15 种以上的元素类型（标题、标题、脚注、代码块等），并输出干净的 Markdown 或 HTML，可供下游使用。Dolphin 的灵活性和通用性使其能够应用于各种场景，例如：

学术研究：研究人员可以使用 Dolphin 从学术论文中提取数据，例如表格中的数据或公式中的变量。这可以帮助研究人员更快地分析数据，发现新的规律。
商业领域：企业可以使用 Dolphin 从报告、发票或手册中提取数据。这可以帮助企业自动化数据录入流程，提高工作效率。
教育领域：学生可以使用 Dolphin 从教科书中提取知识点，例如公式或定义。这可以帮助学生更好地理解课程内容，提高学习效率。
个人应用：个人可以使用 Dolphin 从收据、表格或网页截图中提取信息。例如，可以使用 Dolphin 从收据中提取商品名称和价格，用于记账。

Dolphin 的广泛应用前景使其成为文档处理领域的一款重要工具。

意义：架构优于蛮力，开启新纪元

Dolphin 证明了更智能的架构胜过蛮力缩放。通过将布局分析与内容解析分离，它实现了整体模型无法实现的目标：以高速实现精准。传统的大型 AI 模型往往依赖于大量的计算资源和数据，但它们在处理复杂文档时仍然会遇到困难。Dolphin 则通过巧妙的架构设计，在有限的资源下实现了卓越的性能。这表明，在文档处理领域，更智能的架构设计比单纯的增加模型规模更有效。

Dolphin 的出现，标志着文档图像解析领域进入了一个新的纪元。它不仅提供了一种更高效、更准确的文档处理方法，而且也为未来的研究方向提供了新的思路。未来的文档处理技术将不再仅仅依赖于大型 AI 模型，而是会更加注重架构设计和算法优化，以实现更高的效率和更低的成本。

未来：开源共享，共同进步

Dolphin 已在 GitHub 上开源：github.com/ByteDance/Dolphin。它的开源为研究人员和开发者提供了一个宝贵的资源，他们可以利用 Dolphin 的代码和模型，开发新的文档处理应用。同时，开源也有助于促进 Dolphin 的发展，吸引更多的贡献者参与其中，共同完善 Dolphin 的功能。

文档理解的未来不仅仅是更大的模型 — 而是更智能的管道。而 Dolphin 正在引领这一方向。我们相信，在开源社区的共同努力下，Dolphin 将会不断发展壮大，成为文档处理领域的一款重要工具，为各行各业带来便利。未来的文档处理技术将更加智能、更加高效、更加灵活，而 Dolphin 将在这一进程中发挥重要的作用。它不仅改变了我们处理文档的方式，也为我们打开了通往更智能文档理解的未来之门。

Dolphin：用智能锚点提示革新文档图像解析