大型语言模型(LLM)的评估一直面临着“评估危机”,现有方法难以全面衡量其真正的能力。这篇论文介绍的KnowSum框架,通过统计学方法估算“未见知识”(Unseen Knowledge),为我们重新审视LLM的“知识量”、“信息检索能力”和“输出多样性”提供了新的视角,也指明了“主动知识发现”这一未来研究方向。
LLM评估的“未见知识”挑战
目前,对大型语言模型(LLM)的评估主要集中在模型已经展现出来的能力,也就是“可见知识”。然而,由于LLM的生成过程具有随机性,即使模型内部已经存储了大量的知识,在有限的查询次数下,这些知识也可能不会全部展现出来,这被称为“未见知识”。比如,询问LLM“列举数学定理”,它很可能会优先列出常用的定理,而那些鲜为人知的定理,即使存在于模型的知识库中,也可能在多次查询后依然没有被提及。这就是目前LLM评估面临的“未见知识”挑战。
这种“未见知识”的存在导致传统的评估方法可能低估了LLM的真实能力。如果只关注模型在基准测试中的表现,我们可能会错过那些隐藏在模型内部,但尚未被激发出来的巨大潜力。正如冰山一角,我们所见只是冰山整体的一小部分,而隐藏在水面之下的部分可能更加庞大。
KnowSum:量化LLM的“未见知识”
为了解决上述问题,论文提出了KnowSum框架,旨在量化大型语言模型(LLM)中存在的“未见知识”,从而提供更全面的评估。KnowSum的核心思想是,通过统计分析LLM输出的知识点的频率分布,推断出模型内部可能存在的、但尚未被观测到的知识点数量。换句话说,它就像一个“知识挖掘机”,试图从LLM看似有限的输出中,挖掘出更多的潜在信息。
KnowSum框架包含五个主要步骤:
- 生成(Generation): 使用特定的提示词多次查询LLM,收集模型输出的答案。
- 验证(Verification): 使用外部知识库(例如Wikipedia、PubMed等)验证LLM生成的答案是否真实有效,过滤掉错误或虚构的信息。
- 聚类(Clustering): 将LLM输出的答案进行聚类,将语义上相似的答案归为一类,从而避免重复计算。
- 频率估计(Prevalence Estimation): 统计每个知识点出现的频率,构建频率直方图。
- 未见知识估计(Unseen Estimation): 使用平滑Good-Turing估计器,根据已观测到的知识点频率,推断出未观测到的知识点数量。
KnowSum框架的关键在于使用了平滑Good-Turing估计器。这个估计器源自生态学领域,用于估计未观测到的物种数量。它基于一个简单的原则:如果某个知识点出现的频率很低,那么很可能存在大量类似的知识点尚未被观测到。通过应用这个估计器,KnowSum可以有效地推断出大型语言模型(LLM)中隐藏的“未见知识”。
KnowSum在三大应用中的实证研究
该论文通过三个具体的应用场景,验证了KnowSum框架的有效性和实用性:知识量估计、信息检索能力评估和输出多样性测量。在每个应用中,研究人员都使用KnowSum对多个大型语言模型(LLM)进行了评估,并对比了使用KnowSum前后模型排序的变化。
1. 知识量估计:数学定理与人类疾病
研究人员首先使用KnowSum评估了LLM在数学定理和人类疾病这两个领域的“知识量”。他们要求LLM列举数学定理和人类疾病的名称,并使用Wikipedia、MathSciNet、ProofWiki以及Human Disease Ontology (DOID)数据库验证LLM输出的答案。
评估结果表明,传统的评估方法可能会低估LLM的真实“知识量”。例如,在数学定理的评估中,LLaMA-V3-70B-instruct模型的总知识量估计值(N_tot)最高,达到1706个,而Gemini-1.5-flash模型的SKR(Seen Knowledge Ratio,即观测到的知识占总知识的比例)最低,只有0.19。这意味着Gemini-1.5-flash模型内部可能隐藏着大量的数学知识,但尚未被有效激发。
在人类疾病的评估中,LLaMA-V3-70B-instruct模型同样表现出最高的总知识量,而Claude-3.7-Sonnet和DeepSeek-V3模型的SKR值都非常低,表明这两个模型在生物医学领域也隐藏着大量的“未见知识”。
这些结果表明,单凭观测到的知识点数量,很难准确评估LLM的真实“知识量”。KnowSum框架可以帮助我们更全面地了解LLM的知识储备。
2. 信息检索能力评估:BioASQ数据集
研究人员还使用KnowSum评估了LLM在信息检索方面的能力。他们使用了BioASQ-QA Task 12b测试数据集,该数据集包含340个生物医学研究问题,每个问题都附带了相关的PubMed文档ID和MeSH关键词。研究人员将MeSH关键词作为知识单位,评估LLM在文档检索和问题回答两个子任务中的表现。
评估结果显示,KnowSum框架可以更准确地反映LLM的潜在信息检索能力。例如,在文档检索子任务中,DeepSeek-V3模型在观测到的知识点数量(N_seen)上表现最佳,但经过KnowSum评估后,ChatGPT-3.5-turbo-chat模型被认为拥有更高的总潜在检索能力(N_tot)。这意味着ChatGPT-3.5-turbo-chat模型可能能够检索到更多的相关信息,但需要更有效的提示词或其他技术来激发其潜力。
在问题回答子任务中,ChatGPT-4o-chat模型在传统QA指标上表现平平,但经过KnowSum评估后,被认为拥有最高的总潜在知识量。这表明ChatGPT-4o-chat模型可能能够回答更广泛的生物医学问题,但需要更有效的知识提取方法。
这些结果表明,KnowSum框架可以帮助我们更全面地评估LLM在信息检索方面的能力,并发现模型的潜在优势和劣势。
3. 输出多样性测量:LLM应用与梦想职业
最后,研究人员使用KnowSum评估了LLM在输出多样性方面的表现。他们要求LLM描述LLM的应用场景,并设想LLM可能拥有的梦想职业,然后使用OpenAI的text-embedding-ada-002模型对LLM输出的答案进行聚类,并将唯一聚类的数量作为多样性的指标。
评估结果显示,KnowSum框架可以更准确地反映LLM的潜在输出多样性。例如,在“LLM应用”的评估中,Mistral-7B-instruct-v0.1模型表现出最高的总多样性(N_tot),而在“梦想职业”的评估中,LLaMA-V3-3B-instruct模型表现出最高的总多样性。
这些结果表明,KnowSum框架可以帮助我们更全面地了解LLM在创造性任务中的表现,并发现模型的潜在创新能力。
KnowSum的启示与未来展望:主动知识发现
该论文的研究结果表明,传统的评估方法可能低估了大型语言模型(LLM)的真实能力,而KnowSum框架可以帮助我们更全面地了解LLM的“知识量”、“信息检索能力”和“输出多样性”。KnowSum的成功应用,也为未来的LLM评估和研究提供了新的思路。
该论文提出了“主动知识发现”的概念,即不仅仅是被动地评估LLM已经输出的知识,而是主动地挖掘LLM内部隐藏的知识。“主动知识发现”的最终目标是,利用各种技术手段,最大程度地激发LLM的潜力,使其能够更好地服务于人类。
以下是 KnowSum 研究的一些重要启示:
- LLM 评估范式的转变: 评估应关注模型“能做什么”,而非仅仅关注“做了什么”,从而避免低估模型的真实能力。
- 统计推断在 AI 能力分析中的应用: 将生态学等领域使用的统计方法应用于 LLM 知识量评估,证明了跨学科研究的价值。
- 模型排名的重新解读: 传统排行榜可能无法完全反映模型的真实能力,隐藏知识量高的模型在特定应用中可能更具潜力。
- 高效模型利用策略的制定: 了解模型知识类型及隐藏知识量,有助于制定更有效的 Prompt 工程和 RAG 系统设计策略。
未来的研究可以从以下几个方面展开:
- 探索更有效的提示词设计方法: 设计更有效的提示词,可以帮助我们更好地激发LLM的潜在知识。
- 开发更强大的知识提取工具: 开发更强大的知识提取工具,可以帮助我们从LLM的输出中提取更多的信息。
- 研究更智能的知识融合技术: 研究更智能的知识融合技术,可以将LLM的知识与其他知识源进行整合,从而构建更强大的知识库。
- 将 KnowSum 框架应用于更多的 LLM 和应用场景: 验证 KnowSum 框架的通用性和可扩展性。
总而言之,KnowSum框架的提出,为大型语言模型(LLM)的评估提供了一种新的视角,也为未来的LLM研究指明了新的方向。通过量化“未见知识”,并探索“主动知识发现”,我们可以更好地理解和利用LLM的潜力,使其更好地服务于社会。