纠正检索增强生成 (CRAG): 提升大模型问答质量的利器

大型语言模型 (LLM) 在文本生成方面表现出色，但由于其参数知识的局限性，不可避免地会出现幻觉现象，导致生成内容不准确。检索增强生成 (RAG) 是一种有效的补充方案，它通过检索相关文档来增强 LLM 的知识，从而提高生成质量。然而，RAG 的性能很大程度上依赖于检索文档的相关性，一旦检索出错，模型的表现就会受到影响。为了解决这个问题，纠正检索增强生成 (CRAG) 应运而生，它旨在提升 RAG 的鲁棒性，确保即使在检索结果不佳的情况下，也能生成准确的答案。本文将深入探讨 CRAG 的原理、优势，以及如何利用它来构建更可靠的大模型应用。

LLM 幻觉问题与 RAG 的局限性

大型语言模型 (LLM) 擅长理解指令并生成流畅的文本，但它们并非完美。一个普遍存在的问题是“幻觉”，即生成的内容与事实不符，甚至是完全虚构的。这主要是由于 LLM 的知识来源于大规模的训练数据，而这些数据可能包含过时、错误的信息，甚至是有偏见的。此外，训练数据的质量参差不齐，也容易导致 LLM 学习到不准确的知识。

例如，如果一个 LLM 训练数据中包含了关于“地球是平的”的错误信息，那么它在回答相关问题时，就可能生成错误的答案。即使 LLM 已经学习了正确的知识，但在某些情况下，它仍然可能激活错误的知识，从而产生幻觉。

检索增强生成 (RAG) 是一种旨在解决 LLM 幻觉问题的方案。它的核心思想是，在生成答案之前，先从外部知识库中检索相关的文档，然后将这些文档作为 LLM 的输入，辅助其生成更准确、更全面的答案。RAG 的优势在于，它可以让 LLM 访问最新的信息，避免受到自身知识的限制。

然而，RAG 并非万能。它的性能很大程度上依赖于检索文档的相关性。如果检索到的文档与问题无关，或者包含错误的信息，那么 RAG 反而会加剧 LLM 的幻觉问题。举例来说，如果用户提问“谁赢得了 2022 年世界杯？”，而 RAG 检索到的文档是一些关于其他体育赛事的信息，那么 LLM 可能会生成错误的答案。

CRAG: 内置“事实核查”机制的 RAG

CRAG 的核心思想是，在 RAG 的基础上增加一个“事实核查”机制，用于评估检索文档的质量，并在必要时采取纠正措施，从而提高 RAG 的鲁棒性。CRAG 的工作流程可以概括为以下几个步骤：

检索 (Retrieval): 类似于传统的 RAG，CRAG 首先从知识库中检索与问题相关的文档。
评估 (Evaluation): CRAG 使用一个轻量级的检索评估器（Grader）来评估检索文档的质量。Grader 是一个经过微调的小型 AI 模型，它可以根据问题和文档的内容，判断文档是否与问题相关，以及是否包含准确的信息。
决策 (Action Trigger): 根据 Grader 的评估结果，CRAG 会触发不同的行动：
- 正确 (Correct): 如果文档的质量很高，CRAG 会对其进行提炼，提取出关键信息，并将其作为 LLM 的输入。
- 错误 (Incorrect): 如果文档的质量很差，CRAG 会丢弃这些文档，并进行网络搜索，寻找更可靠的信息。
- 模糊 (Ambiguous): 如果文档的质量介于两者之间，CRAG 会结合提炼后的检索文档和网络搜索结果，为 LLM 提供更全面的信息。
知识提炼 (Knowledge Refinement): CRAG 将文档分割成更小的知识片段，过滤掉无关信息，并重新组合相关片段，以获得更精确的输入。
网络搜索 (Web Search): 当检索文档不相关时，CRAG 使用商业网络搜索 API 获取外部知识，并优先选择 Wikipedia 等可靠来源。
生成 (Generation): 最后，CRAG 将处理后的信息传递给 LLM，生成最终的答案。

CRAG 的一个关键组成部分是 Grader。Grader 的作用是评估检索到的文档与用户查询的相关性。在文章中，作者使用了一个轻量级的 T5-large 模型（0.77B 参数）作为 Grader，并通过 PopQA 等数据集进行微调，使其能够有效地判断文档的相关性。Grader 会为每个问题-文档对分配一个相关性得分，并根据得分采取不同的行动。根据论文数据，Grader 在相关性识别方面甚至优于 ChatGPT。

例如，如果用户提问“什么是量子计算？”，RAG 检索到的文档中有一篇是关于“经典计算”的，Grader 可能会判断这篇文档与问题不太相关，并降低其权重，或者直接将其丢弃。相反，如果 RAG 检索到的文档中有一篇是关于“量子计算的基本原理”的，Grader 可能会判断这篇文档与问题高度相关，并提高其权重，或者优先将其作为 LLM 的输入。

CRAG 的优势与案例分析

与传统的 RAG 相比，CRAG 具有以下优势：

更高的准确性: 通过评估和纠正检索文档，CRAG 可以减少 LLM 幻觉的风险，提高生成答案的准确性。
更强的鲁棒性: 即使在检索结果不佳的情况下，CRAG 仍然可以通过网络搜索等方式获取可靠的信息，确保 LLM 能够生成合理的答案。
更强的适应性: CRAG 的 Grader 可以根据不同的问题和知识库进行微调，使其能够适应不同的应用场景。

案例分析:

假设用户提问“法国的首都是什么？”，传统的 RAG 可能会检索到以下文档：

文档 1：“法国是西欧的一个国家。它的首都是巴黎。”
文档 2：“埃菲尔铁塔是巴黎的著名地标。”
文档 3：“佛罗里达是美国的一个州，有很多旅游景点。”

在这种情况下，文档 1 是最相关的，而文档 2 和文档 3 则不太相关。如果直接将这些文档作为 LLM 的输入，可能会干扰 LLM 的生成，导致答案不准确。

使用 CRAG，Grader 会对这些文档进行评估，并判断文档 1 的相关性最高，而文档 2 和文档 3 的相关性较低。然后，CRAG 会选择文档 1 作为 LLM 的输入，生成准确的答案：“法国的首都是巴黎。”

另一种情况是，如果 RAG 检索到的所有文档都与问题无关，例如：

文档 1：“埃菲尔铁塔是巴黎的著名地标。”
文档 2：“佛罗里达是美国的一个州，有很多旅游景点。”
文档 3：“Python 是一种编程语言。”

在这种情况下，Grader 会判断所有文档的相关性都很低。然后，CRAG 会触发网络搜索，寻找更可靠的信息。通过网络搜索，CRAG 可能会找到一篇关于“法国首都”的维基百科文章，并将其作为 LLM 的输入，生成准确的答案：“法国的首都是巴黎。”

上述案例表明，CRAG 可以有效地评估和纠正检索文档，从而提高 RAG 的准确性和鲁棒性。

CRAG 的实际应用与未来展望

CRAG 作为一种增强 RAG 性能的有效手段，具有广泛的应用前景，尤其是在需要高准确性和可靠性的场景中。以下是一些潜在的应用领域：

智能客服: CRAG 可以用于构建更智能的客服机器人，能够准确回答用户的问题，并提供相关的帮助信息。例如，在医疗领域，客服机器人可以利用 CRAG 来检索最新的医学知识，为患者提供更专业的建议。
知识问答: CRAG 可以用于构建知识问答系统，能够从海量的信息中提取准确的答案，并提供相关的证据。例如，在金融领域，知识问答系统可以利用 CRAG 来检索最新的市场数据和研究报告，为投资者提供更明智的决策支持。
内容创作: CRAG 可以用于辅助内容创作，例如文章撰写、新闻报道等。通过检索相关的信息和数据，CRAG 可以帮助作者提高内容的质量和准确性。

未来，CRAG 的发展方向可能包括以下几个方面：

更强大的 Grader: 可以研究更先进的 Grader 模型，例如基于 Transformer 的模型，以提高文档评估的准确性。
更智能的纠正策略: 可以研究更智能的纠正策略，例如自动生成查询、知识融合等，以提高 RAG 的鲁棒性。
更广泛的应用场景: 可以探索 CRAG 在更多领域的应用，例如教育、科研等，以发挥其更大的价值。

结论

纠正检索增强生成 (CRAG) 是一种有效的提升 RAG 性能的方案。通过引入一个轻量级的检索评估器 (Grader)，CRAG 可以评估检索文档的质量，并在必要时采取纠正措施，从而提高 LLM 生成答案的准确性和鲁棒性。在 LLM 应用日益普及的今天，CRAG 为构建更可靠、更智能的大模型应用提供了一种新的思路。随着技术的不断发展，我们有理由相信，CRAG 将在未来的 LLM 应用中发挥更大的作用，最终提升用户体验并推动人工智能的进步。而通过不断改进 Grader 模型，探索更智能的纠正策略，以及拓展 CRAG 的应用场景，我们将能够更好地利用 RAG 和 LLM 的潜力，构建更加智能和可靠的系统。

纠正检索增强生成 (CRAG): 提升大模型问答质量的利器