自从ChatGPT、Deepseek和Claude等大型语言模型(LLMs)涌现以来,我们已经习惯于利用AI来解答各种问题。然而,正如IBM所指出的,AI有时会产生“幻觉”,即“感知不存在的模式或对象”,生成“无意义或不准确的内容”。这些“AI幻觉”并非简单的错误,而是大模型设计固有的“特性”。本文将深入探讨AI幻觉的本质、成因、影响以及应对策略,并指出在特定情境下,AI幻觉甚至可以成为创新的源泉。
什么是AI幻觉?
简单来说,AI幻觉是指AI模型给出错误的答案,编造故事,或产生不合理的输出。例如,当使用ChatGPT查找文献时,它可能会提供看似相关的参考文献,但点击后却显示“404 Page Not Found”。又如,谷歌Gemini曾自信地建议“添加无毒胶水可以帮助奶酪更好地粘在披萨上”。这些案例都属于AI幻觉的范畴。根据IBM的定义,AI幻觉指的是模型“感知不存在的模式或对象”并生成“无意义或不准确的内容”。
AI幻觉的成因:预测而非事实
大模型的核心机制在于预测下一个最有可能出现的词语,而非验证事实的真实性。正如3Blue1Brown在YouTube视频中所解释的,LLM本质上是复杂的数学函数,其主要目标是选择概率最高的词语来构建连贯的句子。这意味着即使模型不知道正确的答案,它仍然会进行“预测”,以生成看似合理的语句。
此外,大模型的训练数据来自互联网和文本语料库,其中包含不准确、过时、谣言和虚假信息。这种包含错误和矛盾的数据集,会导致模型混淆信息并产生幻觉。因此,LLM的每一步生成都基于“最有可能的下一个词语”,而非基于事实核查,这导致模型擅长构建“连贯”的句子,但无法保证内容的“真实性”。
两种AI幻觉:事实性与忠实性
目前的AI幻觉大致可以分为两类:事实性幻觉和忠实性幻觉。
- 事实性幻觉(Factual Hallucination):模型的输出与可验证的现实世界事实相冲突。例如,当询问AI“糖尿病患者可以用蜂蜜代替糖吗?”时,如果它回答“是的,蜂蜜是天然的,有助于稳定血糖”,这就是一种事实性幻觉。蜂蜜虽然天然,但仍然含有高糖分,会升高血糖。
- 忠实性幻觉(Faithfulness Hallucination):模型的输出与用户的指令或给定的上下文不一致。例如,如果AI回答“蜂蜜富含维生素和矿物质,有助于增强免疫力,是一种健康的食物”,虽然这句话本身没错,但并没有回答用户关于蜂蜜是否可以替代糖的实际问题。
虽然随着大模型的不断改进,这些“基本”的幻觉已经越来越少见。然而,由于AI的输出往往结构清晰、逻辑严密,有时还会引用虚假的参考文献,再加上AI强大的社会声誉,人们仍然很容易相信其输出内容。
AI幻觉的根本原因:数据、泛化、知识与意图
清华大学的研究生在“DeepSeek and AI Hallucinations”公开课中指出,AI幻觉的主要原因有四个:
- 数据偏差(Data Bias):大模型的训练数据来自互联网和文本语料库,其中可能包含错误或偏差。这些缺陷会被模型放大,例如,过时的医学理论或有缺陷的科学结论可能导致模型给出错误的答案。
- 泛化困境(Generalization Dilemma):LLM具有局限性,并且专门用于某些领域。当处理超出其训练领域的问题时,它们很容易出错。 Lukas Berglund的研究表明,GPT-4可以正确回答“谁是汤姆·克鲁斯的母亲?”,但经常错误地回答“谁是玛丽·李·普法伊弗的儿子?”(准确率仅为33%,而正向问题的准确率为79%),这表明即使拥有事实知识,正确的泛化也是很困难的。
- 知识固化(Knowledge Fixation):AI模型的知识嵌入在不可变的参数中,无法自动吸收新数据或修复过去的错误,这意味着它的知识是“冻结”的。例如,ChatGPT-4的知识截止日期是2023年10月。如果询问该日期之后发生的重大事件,它很可能会编造一些信息。
- 误解意图(Misunderstanding Intent):当用户提出模糊或开放式的问题时,模型可能不知道重点在哪里,因此会“自由联想”。这些答案听起来可能连贯,但可能偏离用户的实际意图甚至误导用户。
AI幻觉的影响:风险与挑战
对于企业而言,AI幻觉会带来严重的风险,尤其是在医疗保健、保险和金融等高风险领域,错误可能导致错误的决策或声誉损害。 United Healthcare的案例就是一个典型的例子,由于使用了错误的LLM,导致了声誉损失。谷歌的Bard AI在关于詹姆斯·韦伯望远镜的错误信息也导致谷歌的股票下跌7.7%,市值蒸发1000亿美元。
在零售业,AI幻觉可能导致客户收到错误的订单,获得虚假的促销或支持政策,最终损害信任,并因需要更多的人工干预而增加成本。
对于普通用户而言,AI现在是信息检索的主要工具。罗格斯大学的一项调查显示,47%的美国人对AI抱有“相当程度”或“很大程度”的信任,高于对社交媒体(39%)或国会(42%)的信任。许多用户依靠AI进行法律和学术研究,但它的幻觉可能会导致学习偏差和错误的观念,特别是当AI提供解释时,人们更有可能信任它并坚持错误的观念。
如何防止AI幻觉:评估与对齐
在使用大模型时,一定程度的幻觉是不可避免的。负责任地采用LLM的关键在于,企业需要严格评估模型的输出是否与提供的数据和上下文相匹配。公司应确保模型输出与用户提供的数据紧密对齐,这不仅对用户负责,而且对其自身声誉也至关重要。 越来越多的LLM现在使用RAG(检索增强生成)来减少幻觉,主要提供商也在不断更新其模型,以提高准确性和可靠性。
AI幻觉的另一面:创新的催化剂
DeepMind的创始人Demis Hassabis认为,AI幻觉并非全无益处。他说:“当需要获取事实时,显然不希望出现幻觉。但在创造性的情境中,你可以把它想象成MBA课程中的横向思维。只要创造一些疯狂的想法,但其中大多数都没有意义。但偶尔有一两个可能会让你进入一个搜索空间,一旦你事后评估它,它实际上非常有价值。”
换句话说,AI幻觉可以充当创造过程中的“想象力触发器”,它们不受传统经验或逻辑的束缚。虽然大多数输出可能很荒谬,但即使一两个想法激发了突破,它们也可能成为真正创新的起点。有时,AI幻觉可以将我们带入创造性的“盲点”,激发常规思维永远无法产生的想法,并引导我们寻找意想不到的灵感来源。
例如,在头脑风暴会议中,一个AI生成的看似荒谬的建议,如“利用月球的引力来清洁海洋塑料”,虽然在技术上不可行,但它可能会激发团队思考其他创新性的解决方案,如利用无人船队进行大规模的海洋清理。 类似的,在艺术创作中,AI可能会建议一种前所未有的色彩组合或构图方式,即使这种方式在传统艺术理论中被认为是错误的,但它可能会激发艺术家创造出独特的、令人惊艳的作品。
总结:拥抱AI幻觉的特性
AI幻觉既是大模型的挑战,也是机遇。一方面,它可能导致信息失真,造成严重的后果;另一方面,它也可能激发创造力,推动创新。因此,我们应该拥抱AI幻觉的特性,而非将其视为单纯的bug。通过严格评估、数据对齐以及利用RAG等技术,我们可以最大限度地减少幻觉带来的风险。同时,我们也可以尝试将AI幻觉作为一种创新的工具,探索未知的可能性。只有这样,我们才能充分利用大模型的潜力,并在人工智能时代取得更大的成功。