大语言模型(LLM) 在教育测试中能取代真人学生吗？一项心理测量学分析

随着人工智能技术的飞速发展，尤其大语言模型 (LLM) 的崛起，教育领域正在经历一场前所未有的变革。人们开始探索 LLM 是否能够真实模拟学生作答，从而取代耗时且成本高昂的真人试点测试。然而，LLM 真的能像真人学生一样思考吗？它们的回答能否帮助我们反思真实学生可能犯的错误和缺陷？最近一篇发表在 Arxiv 上的论文“LLM 能在教育评估中给出心理测量学上合理的答案吗？”对此进行了深入研究，试图评估 LLM 在试点测试中模拟学生的有效性。本文将基于该论文，深入探讨 LLM 在教育测试领域的应用潜力与局限性，以及未来的改进方向。

1. 心理测量学合理性：LLM 的关键挑战

论文的核心在于评估 LLM 在教育评估中是否具备“心理测量学合理性”。这意味着 LLM 的作答模式需要与真实学生的作答模式在统计学上保持一致。换句话说，LLM 不仅要给出正确的答案，还要以与真实学生相似的概率分布给出各种可能的答案（包括错误答案）。

心理测量学合理性 的重要性体现在，如果 LLM 能够很好地模拟学生作答，那么研究人员和教育工作者就可以利用 LLM 来进行题目的试点测试，预测学生在真实考试中的表现，并发现题目中潜在的问题。例如，如果一道题目在真人测试中区分度不高，区分度指的是题目是否能够有效区分掌握知识的学生和未掌握知识的学生，而在 LLM 的模拟测试中也表现出同样的问题，那么就可以认为这道题目可能存在设计上的缺陷，需要进行修改。

然而，研究结果表明，目前 LLM 在模拟学生作答方面仍然存在明显的不足。尽管研究人员尝试了各种调整，例如温度缩放，但 LLM 的作答模式与真实学生的作答模式之间仍然存在显著的差异。这意味着，直接使用 LLM 作为真人学生的替代品进行试点测试仍然存在风险。

2. CTT 与 IRT 框架：评估 LLM 性能的工具

研究人员使用了两种经典的心理测量学框架来评估 LLM 的性能：经典测试理论 (CTT) 和项目反应理论 (IRT)。

经典测试理论 (CTT)：CTT 假设观察到的测试分数等于真实分数加上随机误差。在 CTT 框架下，研究人员计算了两个关键指标：
- 项目难度：回答正确的测试者比例。
- 项目区分度：个人在项目上的得分与其总分之间的相关性。
  通过比较 LLM 和真实学生在这些指标上的表现，研究人员可以评估 LLM 是否能够以与真实学生相似的方式对题目难度和区分度做出反应。
  例如，一个好的题目应该具有适中的难度和较高的区分度。如果 LLM 在一个难度适中的题目上表现出过高的正确率，或者在一个具有较高区分度的题目上无法区分出不同水平的学生，那么就说明 LLM 的作答模式与真实学生存在差异。
项目反应理论 (IRT)：IRT 是一种更高级的心理测量学模型，它假设学生的作答概率取决于他们的能力水平和题目的难度。在 IRT 框架下，研究人员可以估计每个学生的能力参数和每个题目的难度参数，并比较 LLM 和真实学生在这些参数上的表现。
例如，如果 LLM 在一个难度较高的题目上表现出过高的自信，或者在简单题目上表现出过低的自信，那么就说明 LLM 对题目难度的感知与真实学生存在差异。

研究发现，在 CTT 和 IRT 框架下，LLM 的表现都与真实学生存在显著差异。这表明，LLM 在模拟学生作答方面仍然存在很大的改进空间。

3. 数据集与 LLM 选择：实验设计的关键要素

为了评估 LLM 的性能，研究人员使用了两个数据集：全国教育进步评估 (NAEP) 和剑桥多项选择题阅读数据集 (CMCQRD)。

全国教育进步评估 (NAEP)：NAEP 包含来自 4 年级、8 年级和 12 年级的十个科目的测试。在实验中，研究人员使用了阅读、美国历史和经济学中的多项选择题。
NAEP 数据集具有代表性强、样本量大的优点，可以提供可靠的评估结果。
剑桥多项选择题阅读数据集 (CMCQRD)：CMCQRD 包含根据欧洲语言共同参考框架 (CEFR) 划分的 B1、B2、C1 和 C2 级别的四项选择题。
CMCQRD 数据集专注于阅读理解，可以更深入地评估 LLM 在阅读理解方面的能力。

研究人员选择了 18 个已发布的开源指令调整 LLM，包括 Llama 3、OlMo 2、Phi ¾ 和 Qwen 2.5，模型大小从 0.5B 到 72B 不等。为了适应超过 70B 参数的模型，研究人员使用了 8 位量化技术。

LLM 的选择也是实验设计的关键要素。研究人员选择不同大小和架构的 LLM，旨在评估模型大小和架构对 LLM 性能的影响。

4. 温度缩放与提示工程：优化 LLM 性能的尝试

研究人员发现，LLM 往往比真人测试者过于自信。为了缓解这个问题，研究人员采用了温度缩放技术。

温度缩放 是一种校准技术，可以缩小 LLM 和人类反应之间的置信度差距。它被单独应用于每个 LLM 和每个项目子集。通过调整 LLM 的温度参数，可以使其预测概率分布更加平滑，从而降低其置信度。

此外，由于 LLM 对提示语措辞高度敏感，研究人员采用了提示工程技术来减少偏差。具体来说，他们每次提示每个项目四次，每次轮换答案选项，然后对概率进行平均。

提示工程 是一种通过优化提示语来提高 LLM 性能的技术。通过精心设计的提示语，可以引导 LLM 更好地理解问题，并给出更准确的答案。

然而，研究结果表明，尽管温度缩放和提示工程可以在一定程度上提高 LLM 的性能，但仍然无法使其达到与真实学生相同的水平。

5. 实验结果分析：LLM 的优势与不足

研究结果表明，没有一个被评估的 LLM 能够可靠地复制真人测试者的行为。尽管尝试了各种调整，例如温度缩放和其他调整，但没有观察到重大差异。但在所有这些调整中，观察到了一种趋势，即在所有模型系列中，较大的模型更倾向于反映人类反应分布。

在 IRT 分析中，发现这些 LLM 倾向于对更难的正确答案更有信心，这与心理测量学上合理的反应的预期相矛盾。另一个值得注意的观察结果是，大型 LLM 虽然准确，但很少选择通常会误导人类的干扰项。在这里，温度缩放和缩小模型尺寸都无法缓解这个问题。

最后，研究发现，与其他科目相比，阅读理解问题中正确答案的概率更像人类，而历史项目的结果好坏参半，有时甚至表现出负相关。

这些结果表明，LLM 在模拟学生作答方面存在以下优势和不足：

优势：
- 较大的 LLM 更倾向于反映人类反应分布。
- 在阅读理解方面表现相对较好。
不足：
- 过于自信。
- 对难题的自信程度高于真实学生。
- 很少选择会误导人类的干扰项。
- 在历史科目中表现不佳。

6. 改进建议与未来展望

为了提高 LLM 的心理测量学合理性，研究人员提出了以下建议：

超越零样本提示。
在人类反应分布上进行微调。

微调是一种通过在特定数据集上训练 LLM 来提高其性能的技术。通过在人类反应分布上进行微调，可以使 LLM 更好地学习真实学生的作答模式。

尽管 LLM 在教育测试领域的应用前景广阔，但目前仍然存在许多挑战。在 LLM 能够可靠地模拟学生作答之前，将其用作真人测试者的替代品仍然存在风险。

然而，随着 LLM 技术的不断发展，我们有理由相信，在不久的将来，LLM 将在教育测试领域发挥更大的作用。例如，LLM 可以用于：

自动生成测试题目。
评估学生的答案。
提供个性化的学习建议。

总而言之，大语言模型 (LLM) 在教育测试中展现出诱人的潜力，特别是在取代耗时耗力的真人试点测试方面。然而，当前的研究表明，LLM 在心理测量学合理性方面仍有欠缺，无法完全模拟真人学生的作答行为。研究人员利用 CTT 和 IRT 框架对 LLM 进行了评估，并尝试通过温度缩放等技术优化其性能，但结果表明，LLM 仍然过于自信，且在难题上的判断与真人学生存在差异。尽管如此，较大的 LLM 在模仿人类反应分布方面表现出一定的优势，尤其是在阅读理解方面。未来的研究方向应侧重于在人类反应分布上进行微调，以进一步提高 LLM 的心理测量学合理性。虽然目前 LLM 尚不能完全取代真人学生，但随着技术的不断进步，相信 LLM 将在未来的教育评估中扮演更重要的角色。

大语言模型(LLM) 在教育测试中能取代真人学生吗？一项心理测量学分析