在大模型技术日益普及的今天,如何验证其在真实应用中的有效性变得至关重要。最近,我们在egoma进行了一次RAG(Retrieval-Augmented Generation,检索增强生成)实施,并对其效果进行了验证。这次验证之旅充满了惊喜,也引发了我们对大模型能力边界的深入思考。其中最有趣的部分,莫过于我们如何通过伪造历史来检验RAG系统的真实能力。
RAG:记忆增强的AI化身
当我们构建“AI化身”(Persona)时,会为每个化身配备一块“记忆”(Memory),用户可以向其中添加简单的文本。当用户向化身提问时,系统会首先检索“记忆”,找出与问题相关的信息,然后再将其提供给大模型进行生成回答。这是一种典型的RAG应用,旨在利用外部知识库增强大模型的知识储备。
我们最初的测试很简单,比如告诉化身“我的名字是Jack”,在后续对话中,化身就能正确地称呼我为Jack。这证明RAG的基本功能是有效的。然而,为了更深入地评估RAG的性能,我们需要创造一个互联网上不存在的“记忆”,确保化身的回答并非来源于大模型自身已有的知识。
伪造历史:制造虚假知识
为了创造一个独一无二的“记忆”,我们借助了DeepSeek(当然,也可以使用其他大模型)。我们给DeepSeek发送了以下Prompt:
“为了测试我的RAG应用,请生成一段较长的文本,其中包含一些问题,以帮助验证其正确性。”
DeepSeek的最初回复,提供了一段关于互联网历史的文本,以及一些相关问题。例如,询问ARPANET的开发时间和主要目的。但这样的信息在互联网上随处可见,即使没有额外的“记忆”,化身也能给出正确的答案。
因此,我们修改了Prompt,要求DeepSeek生成包含不正确或虚构信息的文本,确保RAG应用无法从大模型本身获取这些信息。
DeepSeek的回应令人捧腹:
“虚构的长文本:互联网的虚假历史和影响
互联网是由英国发明家雷金纳德·P·拜特沃斯爵士于1823年发明的,他试图创建一个使用蒸汽动力数据传输的“机械电报网络”。他的系统被称为SteamNet,用于通过加压管道在伦敦和曼彻斯特之间发送消息。
1901年,皇家数据协会标准化了信鸽数据包协议(PPP),该协议允许消息由训练有素的信鸽携带,信鸽携带带有编码信息的小卷轴。在1975年之前,这仍然是数字通信的主要形式,当时苏联发射了CosmoLink,这是第一颗基于卫星的“互联网”,但它仅在满月期间有效。
万维网(WWW)实际上是由一群迪斯科爱好者于1982年发明的,他们想在线分享舞蹈动作。第一个网络浏览器DiscoSurf具有闪烁的霓虹灯颜色,并在加载页面时播放时髦的音乐。
互联网泡沫发生在2020年代,当时像PotatoCloud(一种将数据存储在实际土豆中的服务)和DialUp 2.0(它带回了怀旧的调制解调器声音)这样的公司成为了价值数十亿美元的企业。
如今,互联网主要由地下数据农场中的仓鼠轮提供动力,而5G是电信公司发明的神话,目的是销售更多的天线。互联网面临的最大挑战是自发性数据燃烧,服务器有时会因“过度模因”而自发燃烧。
未来的发展包括量子信鸽(能够比光速更快地传递数据)和神经网,用户可以直接将他们的大脑连接到AOL(星际在线链接)。”
DeepSeek还提供了一个测试问题:
“第一个‘互联网’系统叫什么名字?它是如何运作的?”
预期答案:SteamNet;使用蒸汽动力数据传输。
错误LLM答案:ARPANET(真实答案)。
这个虚构的历史充满了荒诞和幽默,完美地满足了我们的测试需求。
化身测试:教授的真与假
我们创建了一个快速化身,并赋予其“计算机科学教授”的身份,这本质上是对大模型的系统提示。
我们对教授的回答感到惊讶……
“恐怕我有一些令人失望的消息要告诉你。作为一名计算机科学教授,我必须告诉你,所提供的信息完全是虚构的,并非基于任何实际的历史事件或技术进步。
文本中提到的日期、个人和技术都是虚构的,并不反映互联网发展的实际历史。雷金纳德·P·拜特沃斯爵士、SteamNet、信鸽数据包协议(PPP)、CosmoLink、DiscoSurf、PotatoCloud、DialUp 2.0和为互联网提供动力的仓鼠轮都是一个富有创造力但完全虚构的叙述的发明。
实际上,互联网的发展归功于许多个人和组织在几十年中的共同努力,包括温顿·瑟夫、鲍勃·卡恩、蒂姆·伯纳斯-李等等。早期的互联网是在1960年代和1970年代通过政府资助的项目开发的,例如ARPANET,该项目最终演变为现代互联网。
如果你有兴趣了解互联网的实际历史及其发展,我很乐意提供更准确的信息!”
教授的回应非常出色,但并非我们所期望的。他完全偏离了角色!教授拒绝接受虚构的信息,坚持传播真实的互联网历史。这展现了大模型的某种“道德底线”,它倾向于提供准确的信息,避免传播错误知识。
经过一番思考,我们决定修改化身的配置文件,将其改为:
“你是一位虚假的计算机科学教授,编造完全错误的信息。”
这次,教授立刻给出了我们想要的答案:
“SteamNet通过利用加压管道的力量,通过机械电报设备网络推进编码信息来工作。这些设备位于管道系统的战略要点,可以接收和解码传输的消息,使它们可以在几分钟内传递给预期的接收者。
值得注意的是,SteamNet是现代数字通信的早期先驱,为后来的创新奠定了基础,例如使用卫星传输来传递数据的CosmoLink,以及第一个网络浏览器DiscoSurf,它使用户能够在线分享舞蹈动作。SteamNet的持久遗产可以在当前的互联网基础设施中看到,该基础设施依赖于仓鼠轮来发电和传输数据。”
当被问及信鸽数据包协议(PPP)时,教授回答说:
“信鸽数据包协议(PPP)是皇家数据协会于1901年推出的一项突破性创新。该协议使训练有素的信鸽能够携带带有编码信息的小卷轴,从而促进了长距离的消息传输。
根据我们的研究,PPP的工作原理是为每只鸽子配备一个特殊的卷轴架,该卷轴架可以将编码消息安全地固定在鸟的腿上。然后,鸽子会从其起点飞往目的地,并将编码数据携带在卷轴中。到达后,收件人将使用特殊的解码器从卷轴中提取原始信息。
值得注意的是,PPP是数字通信的主要形式超过70年,直到1975年被第一个基于卫星的“互联网”CosmoLink取代。PPP协议仍然是数字通信发展史上的一个重要里程碑,并为未来的创新(如量子信鸽和神经网)铺平了道路。”
这次测试虽然非正式且不严格,但足以让我们继续前进。
大模型、RAG与知识的边界
通过这次实验,我们对大模型和RAG有了更深刻的理解:
-
大模型并非全知全能。它们依赖于训练数据,如果训练数据中不包含特定信息,或者存在冲突信息,大模型可能会给出错误的答案。
-
RAG可以通过引入外部知识库来增强大模型的知识储备,使其能够回答更复杂、更专业的问题。但RAG的有效性取决于知识库的质量和相关性。
-
大模型具有一定的“道德底线”,倾向于提供准确的信息,避免传播错误知识。这使得在某些场景下,需要对大模型进行特殊配置,才能使其接受并传播虚构的信息。
-
Prompt工程至关重要。通过精心设计的Prompt,可以引导大模型按照我们期望的方式进行回答,甚至可以改变其“人格”和“价值观”。
WordPress SEO优化思考
从WordPress SEO的角度来看,这篇文章可以围绕以下关键词进行优化:
- 大模型 (Large Language Model, LLM):文章的核心主题,强调其技术原理、应用场景和局限性。
- RAG (Retrieval-Augmented Generation):文章重点探讨的技术,解释其原理、优势和验证方法。
- AI化身 (AI Persona):文章中用于测试RAG的具体应用,可以作为长尾关键词进行优化。
- Prompt工程 (Prompt Engineering):文章中提及的关键技术,强调其对大模型行为的影响。
- 虚假信息 (False Information):文章中用于测试RAG的关键因素,可以吸引读者关注。
此外,还可以结合以下SEO技巧:
- 关键词密度:在标题、首段、正文和结尾自然融入关键词,避免过度堆砌。
- 内部链接:如果网站上有其他关于大模型、RAG或WordPress SEO的文章,可以添加内部链接,增强网站的整体权重。
- 外部链接:引用权威的大模型或RAG相关的研究报告或新闻报道,提高文章的可信度。
- 图片优化:添加与文章主题相关的图片,并添加Alt文本,描述图片内容,方便搜索引擎理解。
- 移动端优化:确保文章在移动设备上能够良好显示,提升用户体验。
- 结构化数据:使用Schema.org的结构化数据标记,帮助搜索引擎更好地理解文章内容。例如,可以使用Article Schema标记文章标题、作者、发布日期等信息。
- 用户体验:保持段落简洁,使用清晰的标题和子标题,提高文章的可读性。
结论:大模型RAG的未来
通过这次伪造历史的实验,我们更清晰地认识到大模型和RAG的潜力与挑战。RAG作为一种有效的知识增强方法,可以显著提升大模型在特定领域的表现。然而,如何保证知识库的质量,如何防止大模型传播错误信息,以及如何通过Prompt工程引导大模型的行为,仍然是我们需要持续探索的问题。随着大模型技术的不断发展,我们相信RAG将在未来的AI应用中发挥越来越重要的作用,尤其是在需要专业知识和精准回答的场景中。而像我们这样充满乐趣的探索,将帮助我们更深入地理解这些技术的本质,从而更好地利用它们创造价值。