在人工智能领域,语言模型的性能评估对于选择合适的模型至关重要。不同的模型在生成基于上下文的响应、提取意义和保持一致性方面表现出不同程度的成功。本文通过使用检索增强生成(RAG)系统,对五种不同的语言模型进行了比较分析。基于BLEU、ROUGE和BERTScore等指标的评估,研究了这些模型产生准确和有意义响应的能力,并确定了哪个模型提供了更成功的结果。
数据准备与系统架构
在实施中使用的数据集来自Govinfo平台,该平台包含美国的官方文件、立法和法院判决。将上个月发布的一些法院判决的PDF文件合并成一个PDF(543页)。然后将此PDF上传到基于RAG的系统中,每个用户查询都搜索整个PDF并给出答案。
为了比较应用中的不同语言模型,基于PDF提出了90个问题,并将每个模型提供的回答与这些问题的实际答案进行了比较。基于获得的结果,分析了语言模型答案的准确性和一致性,并进行了性能评估。
在本研究中,比较的语言模型在整个过程中有两个主要功能:
- 查询扩展:从传入的查询中生成三个新问题,并与用户的原始问题一起用于向量搜索过程。这个过程使得能够识别文档中最相似的部分。准确定位包含相关信息的部分对于生成正确答案至关重要。这种准确性直接依赖于语言模型产生的质量问题。因此,模型生成的新问题准确性直接影响系统的总体性能和其答案的可靠性。
- 答案生成:将最相关的文本段落和用户的原始问题结合起来生成答案。在这个阶段,语言模型产生响应和分析参考信息的能力直接决定了输出的质量。模型理解和综合的能力越高,生成的答案就越准确、一致和信息丰富。
评估的语言模型
在本研究中,共比较了五种不同的语言模型,其中三种是本地的,两种是基于云的。评估的模型如下:
- DeepSeek R1 Qwen 14B distill(4位量化)
- Llama 3.1 8B instruct(8位量化)
- Microsoft Phi-4 14B(4位量化)
- OpenAI GPT-4o
- OpenAI o3-mini
本地模型使用Ollama运行,而对于基于云的OpenAI模型,通过发送OpenAI API请求获得响应。此外,为了公平比较语言模型,应用中使用的嵌入模型、重排模型、系统提示、查询提示等因素保持不变。
评估指标
为了评估语言模型响应的质量,使用了BLEU、ROUGE-1、ROUGE-2、ROUGE-L和BERTScore指标。这些指标被选用来衡量模型生成的响应与参考答案的准确性、相似性和语义适当性。
- BLEU(Bilingual Evaluation Understudy)通过测量模型生成的响应与参考答案之间的n-gram相似性来评估语言模型的准确性。
- ROUGE-1基于单个词(unigrams)计算参考和模型响应之间的重叠。
- ROUGE-2使用两个词序列(bigrams)测量模型和参考答案之间的相似性。
- ROUGE-L通过分析模型输出和参考文本之间的最长公共子序列(LCS),独立于词序,提供更灵活的匹配标准。
- BERTScore与基于词的比较不同,使用基于BERT的深度学习模型评估响应的语义相似性。
这些指标共同分析了模型的表面相似性(BLEU、ROUGE)和语义准确性(BERTScore)。
除了这些指标外,每个问题、相应的实际答案和语言模型响应都单独检查并标记为正确、部分正确或错误,不依赖于词相似性度量。
结果
1. BLEU
根据测量值,OpenAI GPT-4o模型的BLEU得分最高,为14.34,而Microsoft Phi-4 14B(4位量化)模型的BLEU得分最低,为3.68。在评估的数据集中,参考答案由简短直接的回答组成,而模型生成的回答更具有解释性和详细性,这是所有模型BLEU得分相对较低的一个因素。这可以解释为BLEU指标是一种基于n-gram的测量方法,并不直接评估上下文意义。
在这种情况下,比较模型而不是依赖绝对BLEU得分,可以更准确地分析语言模型的性能。
2. ROUGE-1 / ROUGE-2 / ROUGE-L
ROUGE得分图显示了实际答案和模型生成的响应之间的ROUGE得分。人们认为,所有ROUGE指标中较高的召回值与模型产生更长、更解释性的回答有关。更长的答案增加了覆盖参考答案中出现的词的可能性,从而导致更高的召回得分。高召回得分也支持了BLEU指标得分较低可能是由于模型产生更长、更详细答案的观点。在这种情况下,F1得分被认为是比较模型整体性能最合适的指标。
所有ROUGE指标中得分最高的是OpenAI GPT-4o模型:ROUGE-1: 49.92,ROUGE-2: 33.39,ROUGE-L: 44.05。得分最低的是Microsoft Phi-4 14B(4位量化)模型:ROUGE-1: 24.63,ROUGE-2: 11.87,ROUGE-L: 20.40。
3. BERTScore
与BLEU和ROUGE指标测量实际答案和语言模型生成的响应之间的基于词的匹配和n-gram相似性不同,BERTScore直接关注语义相似性。它评估模型输出在内容上与参考答案的一致程度。通过这种方式,它提供了超越单纯词匹配的上下文视角,使对模型响应质量的分析更加全面。
在BERTScore图中,以F1得分评估时,OpenAI GPT-4o模型得分最高,为91.02。这表明OpenAI GPT-4o模型生成的响应与实际答案在语义上具有最高的一致性。另一方面,Microsoft Phi-4 14B(4位量化)模型的最低BERTScore F1得分为86.81。这表明该模型的输出与参考答案之间的语义相似性低于其他模型。
4. 手动评估
基于词、n-gram和标记的数学计算得分为评估模型性能提供了重要的参考点。然而,模型生成的答案可能比原始答案更长,涉及不同的方面,或包含不在参考答案中的词组。尽管如此,答案本质上可能包含正确的信息。
相反,语言模型生成的答案可能在词和词组方面与参考答案有很高的重叠度(特别是因为语言模型经常在答案中改写问题)。然而,这种表面相似性并不能保证答案的正确性。正如下面的例子所示,一个答案在词汇上可能与参考文本兼容,但在内容上仍然包含错误或不完整的信息。
例如:问题:哪个国家面积最大?实际答案:世界上共有195个国家,面积最大的国家是俄罗斯。模型答案:世界上共有195个国家,面积最大的国家是印度。这种情况表明,仅基于自动指标的评估准确性有限,通过人工观察进行的定性分析在准确性评估中也起着重要作用。
因此,在评估过程中,既考虑了基于数学计算的自动指标,也考虑了基于人工观察的定性分析。实际答案和语言模型生成的回答被人工检查,每个答案被归类为“正确”、“错误”和“部分正确”三个主要类别。与准确性分析相关的可视化如下。
根据图形结果,产生正确答案最多的模型是OpenAI GPT-4o,有77个正确答案,而准确性最低的模型是Microsoft Phi-4 14B(4位量化),有23个正确答案。在本地SML模型中,Llama 3.1 8B instruct(8位量化)模型以27个正确答案实现了最高的准确性。
此外,产生“部分正确”答案最多的模型是Microsoft Phi-4 14B(4位量化),有20个答案。这表明Microsoft Phi-4 14B(4位量化)模型能够访问更准确的文档段落或表现出比其他本地SML模型更高的主题掌握水平。然而,观察到它在生成正确答案方面的表现低于Llama 3.1 8B instruct(8位量化)模型。
在OpenAI模型中,尽管o3 mini(推理模型)比GPT-4o更先进,但在RAG中并没有表现出优越的性能。
在本研究中,基于特定数据集评估了各种语言模型的问答性能。在进行的测试中,分析了模型提供的答案的准确性及其对参考文档的遵循程度。根据获得的指标结果,OpenAI GPT-4o通过获得比其他模型更高的BLEU和ROUGE得分,展示了最佳性能。特别是,ROUGE得分中的高召回值表明,模型能够通过提供更长、更详细的回答来捕获更多来自实际答案的信息。
此外,手动评估揭示了对于RAG应用,仅使用自动计算的指标如BLEU和ROUGE来评估语言模型的性能是不足够的。感谢您的阅读。