AI“幻觉”：大模型不可或缺的“特性”，而非Bug

自从ChatGPT、Deepseek和Claude等大型语言模型（LLMs）涌现以来，我们已经习惯于利用AI来解答各种问题。然而，正如IBM所指出的，AI有时会产生“幻觉”，即“感知不存在的模式或对象”，生成“无意义或不准确的内容”。这些“AI幻觉”并非简单的错误，而是大模型设计固有的“特性”。本文将深入探讨AI幻觉的本质、成因、影响以及应对策略，并指出在特定情境下，AI幻觉甚至可以成为创新的源泉。

什么是AI幻觉？

简单来说，AI幻觉是指AI模型给出错误的答案，编造故事，或产生不合理的输出。例如，当使用ChatGPT查找文献时，它可能会提供看似相关的参考文献，但点击后却显示“404 Page Not Found”。又如，谷歌Gemini曾自信地建议“添加无毒胶水可以帮助奶酪更好地粘在披萨上”。这些案例都属于AI幻觉的范畴。根据IBM的定义，AI幻觉指的是模型“感知不存在的模式或对象”并生成“无意义或不准确的内容”。

AI幻觉的成因：预测而非事实

大模型的核心机制在于预测下一个最有可能出现的词语，而非验证事实的真实性。正如3Blue1Brown在YouTube视频中所解释的，LLM本质上是复杂的数学函数，其主要目标是选择概率最高的词语来构建连贯的句子。这意味着即使模型不知道正确的答案，它仍然会进行“预测”，以生成看似合理的语句。

此外，大模型的训练数据来自互联网和文本语料库，其中包含不准确、过时、谣言和虚假信息。这种包含错误和矛盾的数据集，会导致模型混淆信息并产生幻觉。因此，LLM的每一步生成都基于“最有可能的下一个词语”，而非基于事实核查，这导致模型擅长构建“连贯”的句子，但无法保证内容的“真实性”。

两种AI幻觉：事实性与忠实性

目前的AI幻觉大致可以分为两类：事实性幻觉和忠实性幻觉。

事实性幻觉（Factual Hallucination）：模型的输出与可验证的现实世界事实相冲突。例如，当询问AI“糖尿病患者可以用蜂蜜代替糖吗？”时，如果它回答“是的，蜂蜜是天然的，有助于稳定血糖”，这就是一种事实性幻觉。蜂蜜虽然天然，但仍然含有高糖分，会升高血糖。
忠实性幻觉（Faithfulness Hallucination）：模型的输出与用户的指令或给定的上下文不一致。例如，如果AI回答“蜂蜜富含维生素和矿物质，有助于增强免疫力，是一种健康的食物”，虽然这句话本身没错，但并没有回答用户关于蜂蜜是否可以替代糖的实际问题。

虽然随着大模型的不断改进，这些“基本”的幻觉已经越来越少见。然而，由于AI的输出往往结构清晰、逻辑严密，有时还会引用虚假的参考文献，再加上AI强大的社会声誉，人们仍然很容易相信其输出内容。

AI幻觉的根本原因：数据、泛化、知识与意图

清华大学的研究生在“DeepSeek and AI Hallucinations”公开课中指出，AI幻觉的主要原因有四个：

数据偏差（Data Bias）：大模型的训练数据来自互联网和文本语料库，其中可能包含错误或偏差。这些缺陷会被模型放大，例如，过时的医学理论或有缺陷的科学结论可能导致模型给出错误的答案。
泛化困境（Generalization Dilemma）：LLM具有局限性，并且专门用于某些领域。当处理超出其训练领域的问题时，它们很容易出错。 Lukas Berglund的研究表明，GPT-4可以正确回答“谁是汤姆·克鲁斯的母亲？”，但经常错误地回答“谁是玛丽·李·普法伊弗的儿子？”（准确率仅为33%，而正向问题的准确率为79%），这表明即使拥有事实知识，正确的泛化也是很困难的。
知识固化（Knowledge Fixation）：AI模型的知识嵌入在不可变的参数中，无法自动吸收新数据或修复过去的错误，这意味着它的知识是“冻结”的。例如，ChatGPT-4的知识截止日期是2023年10月。如果询问该日期之后发生的重大事件，它很可能会编造一些信息。
误解意图（Misunderstanding Intent）：当用户提出模糊或开放式的问题时，模型可能不知道重点在哪里，因此会“自由联想”。这些答案听起来可能连贯，但可能偏离用户的实际意图甚至误导用户。

AI幻觉的影响：风险与挑战

对于企业而言，AI幻觉会带来严重的风险，尤其是在医疗保健、保险和金融等高风险领域，错误可能导致错误的决策或声誉损害。 United Healthcare的案例就是一个典型的例子，由于使用了错误的LLM，导致了声誉损失。谷歌的Bard AI在关于詹姆斯·韦伯望远镜的错误信息也导致谷歌的股票下跌7.7%，市值蒸发1000亿美元。

在零售业，AI幻觉可能导致客户收到错误的订单，获得虚假的促销或支持政策，最终损害信任，并因需要更多的人工干预而增加成本。

对于普通用户而言，AI现在是信息检索的主要工具。罗格斯大学的一项调查显示，47%的美国人对AI抱有“相当程度”或“很大程度”的信任，高于对社交媒体（39%）或国会（42%）的信任。许多用户依靠AI进行法律和学术研究，但它的幻觉可能会导致学习偏差和错误的观念，特别是当AI提供解释时，人们更有可能信任它并坚持错误的观念。

如何防止AI幻觉：评估与对齐

在使用大模型时，一定程度的幻觉是不可避免的。负责任地采用LLM的关键在于，企业需要严格评估模型的输出是否与提供的数据和上下文相匹配。公司应确保模型输出与用户提供的数据紧密对齐，这不仅对用户负责，而且对其自身声誉也至关重要。越来越多的LLM现在使用RAG（检索增强生成）来减少幻觉，主要提供商也在不断更新其模型，以提高准确性和可靠性。

AI幻觉的另一面：创新的催化剂

DeepMind的创始人Demis Hassabis认为，AI幻觉并非全无益处。他说：“当需要获取事实时，显然不希望出现幻觉。但在创造性的情境中，你可以把它想象成MBA课程中的横向思维。只要创造一些疯狂的想法，但其中大多数都没有意义。但偶尔有一两个可能会让你进入一个搜索空间，一旦你事后评估它，它实际上非常有价值。”

换句话说，AI幻觉可以充当创造过程中的“想象力触发器”，它们不受传统经验或逻辑的束缚。虽然大多数输出可能很荒谬，但即使一两个想法激发了突破，它们也可能成为真正创新的起点。有时，AI幻觉可以将我们带入创造性的“盲点”，激发常规思维永远无法产生的想法，并引导我们寻找意想不到的灵感来源。

例如，在头脑风暴会议中，一个AI生成的看似荒谬的建议，如“利用月球的引力来清洁海洋塑料”，虽然在技术上不可行，但它可能会激发团队思考其他创新性的解决方案，如利用无人船队进行大规模的海洋清理。类似的，在艺术创作中，AI可能会建议一种前所未有的色彩组合或构图方式，即使这种方式在传统艺术理论中被认为是错误的，但它可能会激发艺术家创造出独特的、令人惊艳的作品。

总结：拥抱AI幻觉的特性

AI幻觉既是大模型的挑战，也是机遇。一方面，它可能导致信息失真，造成严重的后果；另一方面，它也可能激发创造力，推动创新。因此，我们应该拥抱AI幻觉的特性，而非将其视为单纯的bug。通过严格评估、数据对齐以及利用RAG等技术，我们可以最大限度地减少幻觉带来的风险。同时，我们也可以尝试将AI幻觉作为一种创新的工具，探索未知的可能性。只有这样，我们才能充分利用大模型的潜力，并在人工智能时代取得更大的成功。

AI“幻觉”：大模型不可或缺的“特性”，而非Bug