从零开始构建RAG：一种朴素但可扩展的方法（一）

检索增强生成 (Retrieval-Augmented Generation, RAG) 正迅速成为利用大型语言模型 (LLM) 的关键技术。与其让 LLM “凭空想象”答案，不如先为其提供相关的上下文信息，这正是 RAG 擅长的地方。本文将带领大家从零开始，构建一个朴素但可扩展的 RAG 系统，深入理解其核心原理，并避免过度依赖现有框架的抽象。

RAG：连接搜索系统与语言模型的桥梁

RAG 的核心思想是将信息检索（Retrieval）和文本生成（Generation）两个过程结合起来。首先，利用搜索系统从大量的文档中检索出与用户查询相关的片段；然后，将这些检索到的片段作为上下文信息输入给语言模型，引导模型生成更准确、更具信息量的回复。

传统的语言模型在处理开放领域问题时，往往容易产生“幻觉”，即生成一些与事实不符或缺乏依据的内容。例如，当询问“2024年奥运会在哪里举办？”时，未经训练的语言模型可能无法给出正确答案，甚至会编造一个地点。而 RAG 的引入，则有效地缓解了这一问题。通过检索相关的维基百科页面或新闻报道，RAG 可以为语言模型提供可靠的上下文信息，从而使其能够准确地回答问题。

从零构建RAG的必要性

虽然市面上已经存在许多 RAG 相关的库，如 LangChain 和 LlamaIndex 等，它们提供了开箱即用的解决方案，极大地简化了 RAG 的开发过程。然而，对于那些希望深入理解 RAG 内部运作机制的开发者和学习者来说，直接使用这些库可能会让他们陷入黑盒之中，难以了解其背后的原理。

从零开始构建 RAG，可以帮助我们：

深刻理解RAG的核心组成部分： 了解信息检索、向量存储、语言模型等各个模块是如何协同工作的。
掌握RAG的可扩展性设计模式： 学习如何构建一个能够处理大规模数据和高并发请求的 RAG 系统。
灵活选择和定制不同的LLM和向量存储： 不受限于特定框架的限制，可以根据实际需求选择最合适的工具。
深入理解RAG的优缺点： 了解RAG在哪些场景下表现出色，又在哪些场景下存在局限性，从而更好地应用它。

本系列文章的目标

在本系列文章中，我们将从最简单的实现入手，逐步构建一个功能完备的 RAG 系统。具体目标包括：

理解RAG的核心构建块： 深入剖析信息检索、向量存储、语言模型等各个模块的原理和实现。
使用可扩展的设计模式从零构建每个块： 学习如何使用合适的数据结构和算法，构建一个能够处理大规模数据的 RAG 系统。
即插即用各种LLM和向量存储： 掌握如何将不同的语言模型和向量存储集成到 RAG 系统中，实现灵活的配置和切换。
创建一个用于可视化RAG实验的Streamlit应用程序： 使用 Streamlit 构建一个用户友好的界面，方便用户进行 RAG 实验和参数调整。

朴素RAG的实现：第一步

在本篇文章中，我们将重点介绍朴素 RAG 的实现。朴素 RAG 的特点是依赖性少，实现简单，但同时又能够展示 RAG 的核心原理。

一个朴素的 RAG 系统通常包含以下几个步骤：

数据准备： 将需要检索的文档数据进行清洗和预处理，例如去除 HTML 标签、转换大小写等。
文本分割： 将文档分割成小的文本块，以便进行更精确的检索。常见的文本分割方法包括固定长度分割、基于句子分割等。例如，可以将一篇长篇文章分割成多个段落，每个段落作为一个文本块。
向量嵌入： 使用预训练的语言模型，例如 Sentence Transformers，将每个文本块转换成向量表示。向量嵌入能够捕捉文本的语义信息，使得语义相似的文本块在向量空间中距离更近。例如，可以使用 all-mpnet-base-v2 模型将文本块转换成 768 维的向量。
向量存储： 将文本块的向量表示存储到向量数据库中，例如 FAISS、Annoy 等。向量数据库能够高效地进行相似性搜索，从而快速找到与用户查询相关的文本块。例如，可以使用 FAISS 构建一个索引，然后将向量数据添加到索引中。
检索： 接收用户查询，并将其转换成向量表示。然后，使用向量数据库进行相似性搜索，找到与用户查询最相似的 k 个文本块。例如，可以设置 k=5，即返回与用户查询最相关的 5 个文本块。
生成： 将检索到的文本块和用户查询一起输入给语言模型，引导模型生成回复。为了提高生成质量，可以对检索到的文本块进行排序和过滤，例如根据相似度得分进行排序，并过滤掉相似度低于某个阈值的文本块。

代码示例 (Python): 向量嵌入与存储

以下是一个使用 Sentence Transformers 和 FAISS 实现向量嵌入和向量存储的简单示例：

from sentence_transformers import SentenceTransformer
import faiss
import numpy as np

# 1. 加载预训练的 Sentence Transformers 模型
model = SentenceTransformer('all-mpnet-base-v2')

# 2. 准备文本数据
documents = [
    "RAG is a powerful technique for combining search systems and language models.",
    "It allows you to feed the right context to the LLM before asking it to generate responses.",
    "LangChain and LlamaIndex are popular libraries that offer ready-made RAG solutions.",
    "This blog series will guide you through building RAG from scratch."
]

# 3. 生成向量嵌入
embeddings = model.encode(documents)
dimension = embeddings.shape[1]

# 4. 构建 FAISS 索引
index = faiss.IndexFlatL2(dimension)

# 5. 将向量数据添加到 FAISS 索引中
index.add(embeddings)

# 6. 示例查询
query = "What is RAG?"
query_embedding = model.encode(query)

# 7. 执行相似性搜索
k = 2 # 返回最相似的 2 个文本块
distances, indices = index.search(np.array([query_embedding]), k)

# 8. 打印结果
print("Query:", query)
print("Results:")
for i in range(k):
    print(f"Distance: {distances[0][i]}, Document: {documents[indices[0][i]]}")

解释:

SentenceTransformer: 选择all-mpnet-base-v2是因为它在语义相似性任务上表现出色，能有效捕捉文本之间的细微差别。
faiss.IndexFlatL2: IndexFlatL2 是 FAISS 中最简单的索引类型，它使用暴力搜索来查找最近邻。虽然对于小规模数据集来说足够快，但对于大规模数据集，建议使用更高级的索引类型，如 IndexIVFFlat 或 IndexHNSWFlat，以提高搜索效率。
np.array([query_embedding]): index.search 函数需要输入一个二维数组，即使只有一个查询向量，也需要将其转换为二维数组。

朴素RAG的局限性

虽然朴素 RAG 简单易懂，但它也存在一些局限性：

上下文长度限制： 语言模型的上下文长度是有限的，这意味着我们无法将所有检索到的文本块都输入给模型。如何选择最相关的文本块，是一个需要仔细考虑的问题。
噪声数据： 检索到的文本块可能包含一些与用户查询无关的信息，这些噪声数据会影响生成质量。如何过滤掉噪声数据，是一个重要的优化方向。
信息冗余： 检索到的文本块可能包含重复的信息，这会导致生成的回复冗余。如何消除信息冗余，是一个值得研究的问题。
可扩展性： 朴素 RAG 的性能可能无法满足大规模数据和高并发请求的需求。如何构建一个可扩展的 RAG 系统，是一个具有挑战性的问题。

迈向可扩展的RAG

为了克服朴素 RAG 的局限性，我们需要引入更高级的技术和策略。在接下来的文章中，我们将探讨以下主题：

高级向量存储： 使用更高效的向量数据库，如 Milvus、Weaviate 等，以支持更大规模的数据和更快的搜索速度。
更智能的检索策略： 使用更复杂的检索算法，如 BM25、多阶段检索等，以提高检索精度和召回率。
上下文精炼： 使用语言模型对检索到的文本块进行精炼和总结，以减少噪声数据和信息冗余。
生成调优： 使用提示工程、微调等技术，优化语言模型的生成能力，使其能够生成更准确、更具信息量的回复。
异步处理与分布式架构： 利用异步处理和分布式架构，提高 RAG 系统的并发性和可扩展性。

总结

RAG 是一种将搜索系统和语言模型相结合的强大技术，它能够显著提高语言模型在开放领域问题上的表现。通过从零开始构建 RAG，我们可以深入理解其核心原理，并掌握构建可扩展 RAG 系统的关键技术。在后续的文章中，我们将继续深入探讨 RAG 的高级特性和优化策略，帮助大家构建出更加强大和智能的 RAG 系统。请持续关注本系列，一起探索 RAG 的无限可能。

从零开始构建RAG：一种朴素但可扩展的方法（一）

从零开始构建RAG：一种朴素但可扩展的方法（一）

By llmtrend

突破炒作迷雾：利用RAG、MongoDB Atlas与Google Cloud构建真实世界的上下文感知AI

解锁高级 RAG 的力量：构建下一代 RAG 系统的实战指南

发表回复取消回复

pydiode：揭秘 ChatGPT Python Canvas 的运行时真相

大语言模型 (LLM)：聊天机器人背后的智能大脑，理解 Tokens、Transformers 以及 ChatGPT 的工作原理

大模型时代的“天鹅绒牢笼”：重塑智识主权宣言

本地构建强大AI智能体：无需云端，无需订阅，只需代码

You Missed

pydiode：揭秘 ChatGPT Python Canvas 的运行时真相

pydiode：揭秘 ChatGPT Python Canvas 的运行时真相

大语言模型 (LLM)：聊天机器人背后的智能大脑，理解 Tokens、Transformers 以及 ChatGPT 的工作原理

大语言模型 (LLM)：聊天机器人背后的智能大脑，理解 Tokens、Transformers 以及 ChatGPT 的工作原理

大模型时代的“天鹅绒牢笼”：重塑智识主权宣言

大模型时代的“天鹅绒牢笼”：重塑智识主权宣言

利用生成式AI（GenAI）进行数据增强与合成：提升模型性能的实战指南

从零开始构建RAG：一种朴素但可扩展的方法（一）

By llmtrend

Related Post

突破炒作迷雾：利用RAG、MongoDB Atlas与Google Cloud构建真实世界的上下文感知AI

解锁高级 RAG 的力量：构建下一代 RAG 系统的实战指南

发表回复 取消回复

You Missed

pydiode：揭秘 ChatGPT Python Canvas 的运行时真相

大语言模型 (LLM)：聊天机器人背后的智能大脑，理解 Tokens、Transformers 以及 ChatGPT 的工作原理

大模型时代的“天鹅绒牢笼”：重塑智识主权宣言

发表回复取消回复