CB-LLMs：用概念瓶颈突破大语言模型的可解释性瓶颈

随着大语言模型（LLMs）的广泛应用，其缺乏可解释性的问题日益凸显，尤其是在高风险应用场景中，这带来了安全、公平和滥用等诸多隐患。本文旨在解读一篇名为“Concept Bottleneck Large Language Models (CB-LLMs)”的研究论文，该论文提出了一种新颖的框架，通过引入概念瓶颈层（CBL），将人类可理解的概念与模型预测联系起来，从而提升 LLMs 的可解释性、安全性和可控性。本文将深入探讨 CB-LLMs 在文本分类和文本生成两个关键任务上的实现原理、实验结果以及潜在应用，帮助读者理解这一前沿技术。

概念瓶颈模型（CBMs）：构建可解释性的基石

概念瓶颈模型（CBMs）是 CB-LLMs 的基础，其核心思想是先预测人类定义的概念，然后利用这些概念来预测最终输出。这种方法能够提供模型的内部运作机制，从而提高可解释性和支持测试时干预。例如，在图像识别任务中，CBMs 可能会先识别图像中的“鸟喙”、“翅膀”和“羽毛”等概念，然后基于这些概念来预测图像中是否存在“鸟”。CB-LLM 将 CBMs 的思想扩展到文本任务，通过在大型语言模型中设计可解释的概念层来实现可解释性。

文本瓶颈模型（TBM）：自动发现概念的尝试

文本瓶颈模型（TBM）是将 CBMs 应用于文本分类的一种方法。TBM 通过使用语言模型自动发现和衡量概念，然后使用简单的模型来预测标签。例如，TBM 可能会从评论文本中提取“服务差”、“食物美味”等概念，然后根据这些概念来判断评论的情感是正面还是负面。与 TBM 不同的是，CB-LLM 使用基于 prompt 的概念列表，并专注于生成任务以及分类任务。

C3M：半监督学习增强概念监督

C3M 通过结合人工标注和机器生成的概念与 MixUp 正则化，将 CBMs 扩展到预训练语言模型。这种方法可以在最小化性能损失的同时提高可解释性。例如，在情感分析任务中，C3M 可以使用人工标注的“正面”、“负面”概念，以及机器自动生成的“表达愤怒的词语”、“表达喜悦的词语”等概念，从而更全面地理解文本的情感。CB-LLM 可以利用类似的半监督方法来实现鲁棒的概念监督。

文本分类：CB-LLMs 的具体实现

CB-LLMs 在文本分类任务中的实现主要包括以下几个步骤：

概念生成：利用 ChatGPT 等大型语言模型，针对每个目标标签生成特定类别的概念列表。例如，对于 Yelp 极性数据集中的二元分类任务（正面 vs. 负面），可以生成两个不相交的概念子集：
- 负面概念示例：“价格过高”、“服务不专业”、“等待时间长”。
- 正面概念示例：“可靠的清洁”、“员工有礼貌”、“食物美味”。
这些子集的并集构成总的概念集合。这种方法避免了手动标注，并且只需为每个类别提供一个提示即可进行扩展，成本极低。
概念评分——自动概念评分 (ACS)：使用 Hugging Face 的 all-mpnet-base-v2 模型，基于句子级嵌入相似度来标记每个输入文本的概念相关性分数。给定输入文本和每个概念的固定大小嵌入向量，计算相似性分数的伪标签向量。这些分数近似表示样本与每个可解释的概念的对齐程度。例如，对于负面评论“有史以来最差的公司！没有客户服务。如果你星期天打电话，你就倒霉了，他们不在乎！”，与概念“服务不专业”的相似度可能是 0.80，而与概念“价格过高”的相似度可能是 0.20。这些原始分数充当下一步中概念瓶颈层（CBL）的软监督目标。
概念校正——自动概念校正 (ACC)：由于 ACS 可能会产生与给定标签不一致的概念分数，因此引入 ACC 以强制执行类条件掩码对概念分数。这消除了与真实类别无关的概念的噪声激活。例如，如果评论被标记为负面，则明确将“可靠的清洁”等正面概念的分数设置为 0。
训练概念瓶颈层（CBL）：校正后的分数用作 CBL 的训练目标，CBL 将预训练语言模型（RoBERTa-base/GPT2）的输出嵌入映射到可解释的概念空间中。训练目标是最大化余弦立方相似度，以确保 CBL 中的每个神经元都响应不同的可解释的概念。
训练线性层：在 CBL 训练之后，激活将通过 ReLU 函数，以确保仅保留每个概念的正激活。这消除了负激活的模糊语义解释。然后使用弹性网络正则化训练最终的稀疏线性分类器，以确保每个类别预测都可以追溯到一小部分概念神经元。

与黑盒 LLM 不同，CB-LLM 通过将预测追溯到可解释的概念来提供忠实且特定于类别的解释。例如，可以通过与概念（如“服务不专业”）对齐的神经元中的高激活来证明负面情绪预测是合理的，这些激活在瓶颈层和最终权重中直接可见。与此同时，分类准确率仍然具有竞争力，通常与 Yelp 和 DBpedia 等大型数据集上相应的黑盒模型相匹配或超过。

实验设置、基准和评估指标

CB-LLMs 在文本分类任务中使用以下实验设置、基准和评估指标：

数据集：SST2 和 AGnews
基线模型：RoBERTa 和 GPT2
评估指标：准确率、效率和可解释性

关键结果及分析

准确率： 基于 RoBERTa 的模型的结果与原始论文的研究结果一致。黑盒模型的整体性能仍然最佳，但带有 ACC 的 CB-LLM 非常有竞争力，尤其是在 SST2 上。两种性能趋势都表明，可解释性的提高并没有导致准确率的重大损失。基于 GPT2 的模型的结果也与原始论文的研究结果一致。带有 ACC 的 CB-LLM 在 SST2 上与黑盒性能相匹配。
效率： 在概念评分过程中，ACS 在我们的实验和论文中都需要不到一个小时的训练时间。论文与我们重现结果之间的差异是由于 GPU 资源有限。
可解释性： 论文还可视化了前 5 个激活神经元以评估可解释性。在没有 ACC 或稀疏最终层的 CB-LLM 中，许多神经元与预测的类别未对齐，如红色框中突出显示的那样。相比之下，配备 ACC 和稀疏最终层的 CB-LLM 表现出与预测类别基本对齐的神经元。这种明显的改进强调了所提出的框架如何通过将神经元引导到语义上有意义的表示来显着提高可解释性。

新的实验或发现

除了重现原始 CB-LLM 论文的结果外，还进行了两个额外的实验：(1) NEC，旨在进一步研究概念稀疏约束下的可解释性和效率，以及 (2) BCE 训练的 CBL，旨在评估相对于论文中提出的原始 CBL 设计的准确率。

有效概念的数量 (NEC)：有效概念的数量 (NEC) 衡量每个预测贡献的概念（神经元）的平均数量。NEC 值越小，决策解释就越简洁且可解释。NEC 提供了一种定量工具，用于验证高准确率不仅仅是由于随机或冗余的概念使用。它可以在使用不同稀疏程度训练的概念瓶颈模型 (CBM) 之间进行公平比较。 NEC 指标使我们能够直接评估模型准确率和可解释性之间的权衡。结果表明，带有 ACC 的 CB-LLM 在低 NEC 值和平均 NEC 值下始终获得最佳性能。NEC = 5 时的准确率突出了模型在约束下的可解释性。NEC 级别的平均准确率支持 CB-LLM + ACC 作为最有效且最强大的模型。
二元交叉熵训练的概念瓶颈层** (BCE 训练的 CBL)：在训练 CBL 时，论文还尝试了二元交叉熵 (BCE) 作为相似度函数，并将其与论文中提出的余弦立方函数进行了比较。论文发现，与使用余弦立方训练的 CBL 相比，使用 BCE 和 ACC 训练的 CBL 以及使用 BCE 和 ACC 训练的 CB-LLM 在前 5 个有效概念**指标中实现了更高的测试准确率。

文本生成：控制生成内容的概念

CB-LLMs 在文本生成任务中的实现与文本分类略有不同，关键步骤如下：

概念标签：在 CB-LLMs（生成）中，每个类别（例如，世界、体育、商业、科技）都被视为不同的概念。这些标签直接监督概念瓶颈层（CBL）的训练，充当可解释的指导。虽然 ACS 可以用于自动生成概念标签，但此设置使用原始类别标签作为概念注释。
训练概念瓶颈层（CBL）：输入文本首先由预训练 LLM（例如，LLaMA3–8B）编码以生成潜在嵌入，然后将其传递到概念瓶颈层（CBL）。 CBL 学习激活与预定义概念对应的神经元，并应用 ReLU 来消除负激活。概念损失（通过针对概念标签的交叉熵计算）确保每个神经元捕获一个不同的、可解释的概念。
训练无监督层 (UL)：无监督层与 CBL 并行运行，以捕获非概念特征。对抗训练确保它丢弃与概念相关的信息：分类器尝试从此层预测概念，而训练该层以产生统一的输出。这种解耦增强了可操纵性。
训练最终线性层 (FL)：CBL 和无监督输出被连接并传递到最终线性层以进行下一个令牌预测。使用概念损失、令牌损失、对抗损失以及概念权重上的弹性网络正则化来联合训练完整模型。

总而言之，这种方法解决了下游任务，同时确保预定义的概念集在预测期间（通过概念神经元）保持可解释，并且来自不可解释神经元的信息有助于下一个令牌预测，而无需包含任何与概念相关的信息。

实验设置、基准和评估指标

CB-LLMs 在文本生成任务中使用以下实验设置、基准和评估指标：

数据集：SST2 和 AGnews
基线模型：LLaMA3
评估指标：准确率、可操纵性和困惑度

关键结果及分析

准确率： 此指标衡量最大激活的概念神经元是否对应于类别标签。通过将最高激活神经元的索引与相应的类别标签进行比较来自动评估它。
可操纵性： 此指标衡量激活单个概念神经元是否会导致对该概念的可控生成。此指标使用 Roberta 分类器自动评估，该分类器根据生成的文本预测概念。
困惑度： 收集模型生成的内容，并针对判断模型计算困惑度，以作为生成质量的粗略代理。

关键发现如下：

对于 SST2，结果相当一致。准确率、可操纵性和困惑度指标与论文中报告的指标相对相似，尽管略低，这可能是由于使用了较小的模型。
对于 AGnews，结果通常是一致的，除了关于可操纵性。准确率和困惑度都与论文中报告的那些紧密对齐，尽管它们可能略低，因为使用了较小的模型。然而，尽管仅使用了 25% 的训练数据和一个较小的模型，但可操纵性显着提高。但是，论文没有时间进一步调查这种差异，但认为这值得进一步探索。

新的实验或发现

除了重现原始 CB-LLM 论文的结果外，论文还设计了新的实验，以进一步探索 CBL 概念神经元和 UL 不可解释神经元在下一个令牌预测期间的作用。为此，设计了测量对概念神经元的干预如何影响模型生成的可操纵性和困惑度的实验。

以下表格总结了关键结果：

| 干预措施 | 准确率 | 可操纵性 | 困惑度 |
|—|—|—|—|
| 无 | 73% | 70% | 20 |
| 零 | 73% | 70% | 20 |
| 负面 | 60% | 60% | 30 |
| 正面 | 90% | 90% | 25 |

每个干预措施的定义如下：

无：在模型生成期间不对概念神经元进行干预。
零：在模型生成期间将所有概念神经元设置为零。
负面：将负面情绪神经元设置为值 100，并将所有其他概念神经元设置为 0。
正面：将正面情绪神经元设置为值 100，并将所有其他概念神经元设置为 0。

主要发现如下：

非零干预（负面和正面干预）会增加困惑度，这转化为更低的质量和不太连贯的文本生成。
该模型更有可能生成正面情绪评论。应用无干预的模型会导致 73% 的生成是正面情绪，而不是 50%。
尽管训练集具有类别平衡，但引导正面情绪更容易。干预正面神经元会导致 90% 的生成是正面，而干预负面神经元仅会导致 60% 的生成是正面。此外，与正面干预相比，负面干预的可操纵性较差，并导致更大的困惑度。

最有趣的发现是，没有干预和零干预会导致大致相同的困惑度和每个类别的可操纵性。当应用零干预时，所有概念神经元都关闭（设置为 0），因此所有令牌预测都完全基于 UL 不可解释神经元。根据 CB-LLM 文本生成步骤 3，预计概念神经元将包含与那些概念相关的所有信息，而 UL 不可解释神经元将包含一组正交的概念，以便论文可以通过仅检查概念神经元来更可靠地解释一组概念的模型预测。然而，发现即使没有这些概念神经元，模型也会生成与它们存在时情绪大致相同的语句。这表明无监督的不可解释神经元仍然在下一个令牌预测期间保留与概念相关的信息。因此，这降低了 CB-LLM 用于文本生成的可解释性，因为概念神经元不包含有关预定义概念的所有信息，并且检查它们不会告诉您有关模型在令牌预测期间如何使用这些概念的所有信息。因此，尽管概念神经元对于可操纵性和可控生成很有用，但它们在令牌预测的影响方面的可解释性仍然有限。

总结与展望：迈向更可解释的 LLMs

CB-LLMs 通过引入概念瓶颈层，将人类可理解的概念融入到大语言模型中，从而显著提升了模型的可解释性。在文本分类和文本生成任务中，CB-LLMs 均展现出良好的性能，并且能够提供清晰的、基于概念的解释。尽管如此，CB-LLMs 仍然面临一些挑战，例如如何自动生成更具代表性和区分性的概念，以及如何进一步提升概念与模型预测之间的一致性。未来的研究可以探索以下方向：

动态概念生成： CB-LLMs 目前使用的概念是静态的，预先定义的。未来的研究可以探索动态概念生成的方法，使模型能够根据输入文本自动发现和学习新的概念。
多粒度概念表示： CB-LLMs 目前使用的概念是单粒度的，例如“正面”或“负面”。未来的研究可以探索多粒度概念表示的方法，使模型能够同时处理抽象和具体的概念。
因果概念推理： CB-LLMs 目前只能提供概念与预测之间的相关性，而无法提供因果关系。未来的研究可以探索因果概念推理的方法，使模型能够解释概念如何影响预测。

总而言之，CB-LLMs 为构建更可解释、更安全、更可控的大语言模型提供了一个有希望的方向。随着技术的不断发展，相信未来的 LLMs 将能够更好地理解和解释世界，并为人类带来更大的福祉。通过本文的解读，希望读者能够对 CB-LLMs 的原理、实验结果和未来发展方向有一个更深入的理解，并在此基础上开展自己的研究和应用。期待未来能够涌现更多基于概念瓶颈的可解释大语言模型，共同推动人工智能技术的发展。

CB-LLMs：用概念瓶颈突破大语言模型的可解释性瓶颈