大模型“冰山之下”的知识:KnowSum如何揭示LLM的潜在能力?
大型语言模型(LLM)的评估一直面临着“评估危机”,现有方法难以全面衡量其真正的能力。这篇论文介绍的KnowSum框架,通过统计学方法估算“未见知识”(Unseen Knowledge),为我们重新审视LLM的“知识量”、“信息检索能力”和“输出多样性”提供了新的视角,也指明了“主动知识发现”这一未来研究方向。 LLM评估的“未见知识”挑战 目前,对大型语言模型(LLM)的评估主要集中在模型已经展