大模型“冰山之下”的知识：KnowSum如何揭示LLM的潜在能力？

大型语言模型（LLM）的评估一直面临着“评估危机”，现有方法难以全面衡量其真正的能力。这篇论文介绍的KnowSum框架，通过统计学方法估算“未见知识”（Unseen Knowledge），为我们重新审视LLM的“知识量”、“信息检索能力”和“输出多样性”提供了新的视角，也指明了“主动知识发现”这一未来研究方向。

LLM评估的“未见知识”挑战

目前，对大型语言模型（LLM）的评估主要集中在模型已经展现出来的能力，也就是“可见知识”。然而，由于LLM的生成过程具有随机性，即使模型内部已经存储了大量的知识，在有限的查询次数下，这些知识也可能不会全部展现出来，这被称为“未见知识”。比如，询问LLM“列举数学定理”，它很可能会优先列出常用的定理，而那些鲜为人知的定理，即使存在于模型的知识库中，也可能在多次查询后依然没有被提及。这就是目前LLM评估面临的“未见知识”挑战。

这种“未见知识”的存在导致传统的评估方法可能低估了LLM的真实能力。如果只关注模型在基准测试中的表现，我们可能会错过那些隐藏在模型内部，但尚未被激发出来的巨大潜力。正如冰山一角，我们所见只是冰山整体的一小部分，而隐藏在水面之下的部分可能更加庞大。

KnowSum：量化LLM的“未见知识”

为了解决上述问题，论文提出了KnowSum框架，旨在量化大型语言模型（LLM）中存在的“未见知识”，从而提供更全面的评估。KnowSum的核心思想是，通过统计分析LLM输出的知识点的频率分布，推断出模型内部可能存在的、但尚未被观测到的知识点数量。换句话说，它就像一个“知识挖掘机”，试图从LLM看似有限的输出中，挖掘出更多的潜在信息。

KnowSum框架包含五个主要步骤：

生成（Generation）： 使用特定的提示词多次查询LLM，收集模型输出的答案。
验证（Verification）： 使用外部知识库（例如Wikipedia、PubMed等）验证LLM生成的答案是否真实有效，过滤掉错误或虚构的信息。
聚类（Clustering）： 将LLM输出的答案进行聚类，将语义上相似的答案归为一类，从而避免重复计算。
频率估计（Prevalence Estimation）： 统计每个知识点出现的频率，构建频率直方图。
未见知识估计（Unseen Estimation）： 使用平滑Good-Turing估计器，根据已观测到的知识点频率，推断出未观测到的知识点数量。

KnowSum框架的关键在于使用了平滑Good-Turing估计器。这个估计器源自生态学领域，用于估计未观测到的物种数量。它基于一个简单的原则：如果某个知识点出现的频率很低，那么很可能存在大量类似的知识点尚未被观测到。通过应用这个估计器，KnowSum可以有效地推断出大型语言模型（LLM）中隐藏的“未见知识”。

KnowSum在三大应用中的实证研究

该论文通过三个具体的应用场景，验证了KnowSum框架的有效性和实用性：知识量估计、信息检索能力评估和输出多样性测量。在每个应用中，研究人员都使用KnowSum对多个大型语言模型（LLM）进行了评估，并对比了使用KnowSum前后模型排序的变化。

1. 知识量估计：数学定理与人类疾病

研究人员首先使用KnowSum评估了LLM在数学定理和人类疾病这两个领域的“知识量”。他们要求LLM列举数学定理和人类疾病的名称，并使用Wikipedia、MathSciNet、ProofWiki以及Human Disease Ontology (DOID)数据库验证LLM输出的答案。

评估结果表明，传统的评估方法可能会低估LLM的真实“知识量”。例如，在数学定理的评估中，LLaMA-V3-70B-instruct模型的总知识量估计值（N_tot）最高，达到1706个，而Gemini-1.5-flash模型的SKR（Seen Knowledge Ratio，即观测到的知识占总知识的比例）最低，只有0.19。这意味着Gemini-1.5-flash模型内部可能隐藏着大量的数学知识，但尚未被有效激发。

在人类疾病的评估中，LLaMA-V3-70B-instruct模型同样表现出最高的总知识量，而Claude-3.7-Sonnet和DeepSeek-V3模型的SKR值都非常低，表明这两个模型在生物医学领域也隐藏着大量的“未见知识”。

这些结果表明，单凭观测到的知识点数量，很难准确评估LLM的真实“知识量”。KnowSum框架可以帮助我们更全面地了解LLM的知识储备。

2. 信息检索能力评估：BioASQ数据集

研究人员还使用KnowSum评估了LLM在信息检索方面的能力。他们使用了BioASQ-QA Task 12b测试数据集，该数据集包含340个生物医学研究问题，每个问题都附带了相关的PubMed文档ID和MeSH关键词。研究人员将MeSH关键词作为知识单位，评估LLM在文档检索和问题回答两个子任务中的表现。

评估结果显示，KnowSum框架可以更准确地反映LLM的潜在信息检索能力。例如，在文档检索子任务中，DeepSeek-V3模型在观测到的知识点数量（N_seen）上表现最佳，但经过KnowSum评估后，ChatGPT-3.5-turbo-chat模型被认为拥有更高的总潜在检索能力（N_tot）。这意味着ChatGPT-3.5-turbo-chat模型可能能够检索到更多的相关信息，但需要更有效的提示词或其他技术来激发其潜力。

在问题回答子任务中，ChatGPT-4o-chat模型在传统QA指标上表现平平，但经过KnowSum评估后，被认为拥有最高的总潜在知识量。这表明ChatGPT-4o-chat模型可能能够回答更广泛的生物医学问题，但需要更有效的知识提取方法。

这些结果表明，KnowSum框架可以帮助我们更全面地评估LLM在信息检索方面的能力，并发现模型的潜在优势和劣势。

3. 输出多样性测量：LLM应用与梦想职业

最后，研究人员使用KnowSum评估了LLM在输出多样性方面的表现。他们要求LLM描述LLM的应用场景，并设想LLM可能拥有的梦想职业，然后使用OpenAI的text-embedding-ada-002模型对LLM输出的答案进行聚类，并将唯一聚类的数量作为多样性的指标。

评估结果显示，KnowSum框架可以更准确地反映LLM的潜在输出多样性。例如，在“LLM应用”的评估中，Mistral-7B-instruct-v0.1模型表现出最高的总多样性（N_tot），而在“梦想职业”的评估中，LLaMA-V3-3B-instruct模型表现出最高的总多样性。

这些结果表明，KnowSum框架可以帮助我们更全面地了解LLM在创造性任务中的表现，并发现模型的潜在创新能力。

KnowSum的启示与未来展望：主动知识发现

该论文的研究结果表明，传统的评估方法可能低估了大型语言模型（LLM）的真实能力，而KnowSum框架可以帮助我们更全面地了解LLM的“知识量”、“信息检索能力”和“输出多样性”。KnowSum的成功应用，也为未来的LLM评估和研究提供了新的思路。

该论文提出了“主动知识发现”的概念，即不仅仅是被动地评估LLM已经输出的知识，而是主动地挖掘LLM内部隐藏的知识。“主动知识发现”的最终目标是，利用各种技术手段，最大程度地激发LLM的潜力，使其能够更好地服务于人类。

以下是 KnowSum 研究的一些重要启示：

LLM 评估范式的转变： 评估应关注模型“能做什么”，而非仅仅关注“做了什么”，从而避免低估模型的真实能力。
统计推断在 AI 能力分析中的应用： 将生态学等领域使用的统计方法应用于 LLM 知识量评估，证明了跨学科研究的价值。
模型排名的重新解读： 传统排行榜可能无法完全反映模型的真实能力，隐藏知识量高的模型在特定应用中可能更具潜力。
高效模型利用策略的制定： 了解模型知识类型及隐藏知识量，有助于制定更有效的 Prompt 工程和 RAG 系统设计策略。

未来的研究可以从以下几个方面展开：

探索更有效的提示词设计方法： 设计更有效的提示词，可以帮助我们更好地激发LLM的潜在知识。
开发更强大的知识提取工具： 开发更强大的知识提取工具，可以帮助我们从LLM的输出中提取更多的信息。
研究更智能的知识融合技术： 研究更智能的知识融合技术，可以将LLM的知识与其他知识源进行整合，从而构建更强大的知识库。
将 KnowSum 框架应用于更多的 LLM 和应用场景： 验证 KnowSum 框架的通用性和可扩展性。

总而言之，KnowSum框架的提出，为大型语言模型（LLM）的评估提供了一种新的视角，也为未来的LLM研究指明了新的方向。通过量化“未见知识”，并探索“主动知识发现”，我们可以更好地理解和利用LLM的潜力，使其更好地服务于社会。

大模型“冰山之下”的知识：KnowSum如何揭示LLM的潜在能力？