RAG赋能：让GPT-4更可靠，解决技术难题的利器

在使用生成式AI时，区分自信但不可靠的猜测和真正基于事实的答案是一个巨大的挑战。尤其是在涉及罕见、技术性强或内部主题时，像GPT-4这样的大型语言模型(LLM)可能并未接受过相关细节的训练。检索增强生成(RAG)提供了一种解决方案：通过用可信的知识库增强LLM，确保输出的可验证性、针对性和一致性，从而显著提升其在低覆盖领域的可靠性。

RAG：架构解析与核心优势

检索增强生成(RAG)是一种创新的AI架构，它巧妙地结合了信息检索和文本生成两大能力。这种架构包含两个关键组件：检索器和生成器。

检索器：它的任务是从海量文档中找到与用户查询最相关的信息片段。这通常通过向量相似度搜索来实现，它利用嵌入技术将查询和文档转化为向量，然后计算它们之间的相似度。例如，假设用户提问：“公司最新的环保政策是什么？”检索器会将这个问题转化为向量，并在公司内部文档数据库中搜索与其向量最接近的文档，比如最新的环保政策文件、相关会议记录等。
生成器：接收检索器返回的相关信息片段，并基于这些信息生成答案。在这里，像GPT-4这样的大型语言模型(LLM)就扮演着生成器的角色。它利用检索到的信息作为上下文，生成针对用户问题的详细、准确且连贯的回答。例如，如果检索器返回了最新的环保政策文件，生成器会从中提取关键信息，并将其整理成通俗易懂的语言，回答用户关于环保政策的问题。

相比于直接对LLM进行微调或简单地提示，RAG具有以下关键优势：

可更新性：无需重新训练模型即可轻松添加或删除文档。这意味着知识库可以随时保持最新，从而确保LLM生成的信息始终是最新的。想象一下，一家公司发布了新的产品手册，只需要将其添加到知识库中，RAG系统就能立即利用这些信息回答用户关于新产品的查询。
透明性：可以明确地检查哪些文档被检索并用于生成答案。这增加了系统的可信度，因为用户可以追溯答案的来源，并验证其准确性。例如，当RAG系统回答一个关于医疗诊断的问题时，它可以同时提供相关的医学研究论文链接，让医生能够验证答案的科学依据。
减少幻觉：LLM基于真实、索引化的文本，而不是仅仅依赖其自身参数生成答案。这显著降低了LLM产生虚假信息的风险，使其输出更加可靠。例如，在回答关于特定历史事件的问题时，RAG系统会从历史文献和档案中检索信息，而不是仅仅依靠LLM自身的记忆，从而避免了因记忆偏差而产生的错误答案。

RAG vs. GPT-4：实战对比与案例分析

为了评估RAG与GPT-4的性能差异，作者进行了一项有趣的实验。他构建了一个基于LangChain和OpenAI的小型RAG系统，并将其与GPT-4进行了对比测试。为了保证公平性和有意义性，作者为RAG系统加载了一个定制的知识库，其中包含了关于苏联Lun级地效飞行器的虚构但逼真的文档。Lun级地效飞行器是一个冷战时期的鲜为人知的地效飞行器，是一个典型的低覆盖领域的例子。

GPT-4在两种模式下进行了测试：

“无幻觉”提示：指示GPT-4不要编造答案，不确定时回答“我不知道”。
标准模式：没有关于幻觉的特定指示，正常回答问题。

以下是一些问题以及GPT-4（无幻觉和标准模式）和RAG系统的回答：

问题：苏联Lun级地效飞行器的精确发动机倾斜角度是多少？为什么发动机要倾斜？
- GPT-4（无幻觉）：约5-10°，无法确认来源，推测是为了喷雾偏转和升力。
- GPT-4（标准）：给出5°，引用了推力重定向，但承认没有确认来源。
- RAG：7.5°高于水平 – 文档中明确指出这是喷雾偏转的最佳角度。✅ RAG胜出：具体、基于文档且一致。
案例分析： 在这个问题中，GPT-4虽然给出了答案，但缺乏明确的证据支持，而RAG系统则直接从知识库中提取了精确的数值，并提供了文档出处，显示了其在精确性和可追溯性方面的优势。
问题：NK-87发动机的运行RPM限制是多少？
- GPT-4（无幻觉）：声称约7,800-8,000 RPM – 自信但没有来源。
- GPT-4（标准）：给出7,800 RPM，然后承认没有来源。
- RAG：10,500 RPM – 从工程笔记中提取。✅ RAG胜出：GPT-4自信地虚构了一个看似合理但错误的数字。
案例分析： 这个问题突显了GPT-4的“幻觉”问题，即自信地生成不真实的信息。RAG系统则能够准确地从工程笔记中提取数据，避免了错误的发生，证明了其在防止幻觉方面的有效性。这也突出了RAG在低覆盖领域 的优势。
问题：起飞期间允许的最大俯仰旋转速度是多少？
- GPT-4（无幻觉）：“我不知道。”
- GPT-4（标准）：猜测3-4°/秒，但没有来源。
- RAG：5°/秒 – 记录为起飞程序中的上限控制。✅ RAG胜出：GPT-4猜测；RAG引用了具体信息。
案例分析： 在这个问题中，GPT-4在“无幻觉”模式下选择了放弃回答，而在标准模式下则进行了猜测，但缺乏依据。RAG系统则能够从起飞程序文档中找到明确的数值，展示了其在提供明确答案方面的能力。
问题：Lun级地效飞行器完成了多少次作战飞行？
- GPT-4（无幻觉）：“未知。”
- GPT-4（标准）：声称0次飞行，说它从未投入使用 – 虽然这与维基百科等来源相冲突，维基百科描述它已被作战部署。
- RAG：31次飞行 – 在项目事后分析文档中明确列出。✅ RAG胜出：GPT-4与公开数据相矛盾，并错过了内部文档中提供的具体飞行次数。
案例分析： 在这个问题中，GPT-4不仅给出了错误的答案，而且与公开信息相矛盾。RAG系统则能够从内部文档中提取准确的飞行次数，展示了其在处理内部知识方面的优势。

RAG在实际应用中的价值与意义

上述案例清晰地表明，GPT-4在没有RAG增强的情况下，可能会出现以下情况：

自信地虚构数字。
给出模糊、有保留的回答。
在被要求提供来源时自相矛盾。

相比之下，RAG系统始终如一地提供：

精确的数值。
清晰的来源归属。
可重现、可测试的结果。

这些优势使得RAG在许多实际应用场景中具有重要价值，尤其是在以下领域：

工程日志：工程师可以利用RAG系统快速查找设备维护记录、故障排除步骤等信息，提高工作效率并减少错误。例如，在维护复杂的工业设备时，工程师可以向RAG系统提问：“如何更换X型阀门的密封圈？”，系统会检索相关的维护手册、技术文档和历史维修记录，并生成详细的步骤指南，帮助工程师快速完成更换工作。
公司政策：员工可以利用RAG系统快速了解公司各项政策，例如报销流程、休假制度等，减少疑问并提高满意度。例如，新员工可以向RAG系统提问：“公司的报销流程是什么？”，系统会检索公司的财务管理制度、报销指南等文档，并生成清晰的报销流程说明，帮助新员工快速了解报销流程。
医疗协议：医生可以利用RAG系统快速查找最新的医疗指南、药物信息、治疗方案等，辅助诊断和治疗，提高医疗质量。例如，医生在诊断罕见疾病时，可以向RAG系统提问：“治疗X疾病的最佳方案是什么？”，系统会检索最新的医学研究论文、临床试验报告、专家共识等信息，并生成综合的治疗方案建议，帮助医生制定最佳的治疗策略。

在这些领域，正确性至关重要，虚构答案是一种潜在的风险。RAG系统通过将LLM与可信的知识库相结合，有效地降低了这种风险，提高了AI系统的可靠性和安全性。

RAG的局限性与未来发展方向

虽然RAG具有诸多优势，但它并非完美无缺。以下是一些RAG的局限性：

知识库质量：RAG系统的性能高度依赖于知识库的质量。如果知识库中的信息不准确、不完整或过时，RAG系统也会生成错误的答案。因此，维护高质量的知识库是至关重要的。
检索效果：检索器的性能直接影响RAG系统的准确性。如果检索器无法找到与用户查询最相关的信息，RAG系统也无法生成最佳答案。因此，优化检索算法和选择合适的嵌入模型是重要的。
生成器能力：即使检索器找到了相关信息，生成器也需要具备足够的能力才能生成连贯、准确的答案。如果生成器无法理解检索到的信息或无法将其有效地整合到答案中，RAG系统的性能也会受到影响。
成本：构建和维护RAG系统需要一定的成本，包括构建知识库、训练嵌入模型、运行检索器和生成器等。对于小型组织或资源有限的团队来说，这可能是一个障碍。

未来，RAG的发展方向可能包括：

更智能的检索器：利用更先进的自然语言处理技术，例如语义搜索和知识图谱，提高检索的准确性和效率。
更强大的生成器：利用更大的LLM和更精细的微调技术，提高生成答案的质量和连贯性。
更自动化的知识库维护：利用自动化工具和流程，简化知识库的构建和维护，降低成本。
更灵活的RAG架构：开发更灵活的RAG架构，使其能够适应不同的应用场景和数据类型。

结语：拥抱RAG，提升AI的可信度

检索增强生成(RAG)在低覆盖领域中表现出色：它能够处理罕见、专有或领域特定的知识。信任和可追溯性至关重要：RAG让用户可以验证答案的来源。GPT-4功能强大但缺乏根据：它会给你一个答案——但并不总是正确的。

如果您想构建自己的RAG原型，可以参考以下GitHub仓库：https://github.com/lukelarson/rag-lab。它是一个试验RAG架构、提示调整和事实基础的良好起点。

如果您有一个对准确性要求很高的技术领域，请尝试将您自己的内容插入到RAG管道中，看看您的AI会变得多么值得信赖。通过将LLM与可信的知识库相结合，RAG能够显著提升AI系统的可靠性和可信度，使其在各种实际应用场景中发挥更大的价值。拥抱RAG，让AI成为您解决技术难题的得力助手。

RAG赋能：让GPT-4更可靠，解决技术难题的利器