大型语言模型(LLM)已经成为一个重要的研究和应用方向。这些模型因其在理解和生成自然语言方面的能力而受到广泛关注。然而,现有的LLM基准测试往往集中在单一任务、易于获取的确切答案(ground truth)和简单的评估指标上,这限制了它们评估的作业范围。实际的数据科学工作更为复杂,需要不确定的答案和多样化的评估指标。针对这一挑战,本文介绍了DataSciBench,这是一个为评估数据科学领域中LLM能力而设计的综合性基准测试。
DataSciBench概述
DataSciBench基准测试旨在提供一个全面、精炼、自然的挑战性提示(prompt)和不确定的答案,以及多样化的评估指标。为了生成答案(GT)和验证评估指标,开发了一个半自动化的管道,该管道利用基于LLM的自我一致性(self-consistency)和人工验证策略来生成准确的GT。此外,提出了一个创新的Task-Function-Code(TFC)框架,根据定义的指标和编程规则评估代码执行结果。
模型测试结果
主要指标
- SR(成功率):在10次执行中,所有TFC(任务、功能、代码)都通过的提示的比率。
- CR(完成率):每个TFC步骤的完成分数总和除以最大可能分数。
- VLM:使用VLM-as-a-judge对视觉输入进行整体评分评估。
- F1至F5:细分的聚合指标(数据清洗质量、图表有效性、数据准确性、可视化完整性、模型准确性)。
- Score:最终分数(加权平均)。
结果总结
API基础模型(如GPT-4o)平均表现优于开源模型。GPT-4o在所有指标中都超越了其他模型,得分最高(64.51)。在开源模型中,Deepseek-Coder-33B-Instruct得分最高(56.76)。所有模型在遵循详细指令、适当调用工具、准确执行计划和导出所需执行结果等方面都有改进的空间。
测试数据集列表和内容
数据集构成
- 包含222个实际且具有挑战性的高质量提示,519个GT(Ground Truth)。
数据集来源
- CodeGeeX:从在线代码生成平台收集实际用户的自然提示。
- BigCodeBench (BCB):提取并精炼167个高质量数据科学提示,以适应DataSciBench格式(输入数据/文件、提示、预期输出文件、TFC)。
- 人工编写:参考相关网站编写精细的提示。
- LLM合成:使用人工编写的提示作为少量示例,通过LLM生成提示。
提示特征
- 包括自然语言、挑战性、高质量。
- 包含6种定义的数据科学工作(数据预处理、统计、可视化、挖掘、解释等)。
- 要求多种类型的结果,以进行全面评估。
- 通过问题过滤去除低质量的问题(包括“机器学习”、“深度学习”、“数据预处理”、“数据可视化”等关键词,但排除代码重写、错误查找、基本概念解释等)。
- 专家审查:计算机科学和数据分析专家审查提示,确保质量(准确性、适当性、明确性等)。
研究方法论和结论
研究方法论
- 提示定义和收集:定义6种数据科学工作类型,从多个来源收集和过滤提示,并通过专家审查进行质量管理。
- 响应集成和验证:TFC(任务-功能-代码)框架:评估每个提示的主要工作。
- 任务(Task):提示中要求的数据科学工作类型(6种中的一个或多个)。
- 功能(Function):评估每个工作的特定评估函数(例如,数据清洗完整性、可视化完整性等)。
- 代码(Code):实现评估函数的编程代码。
- 半自动化管道:利用LLM生成GT和验证评估指标。通过自我一致性策略和人工验证确保准确性和可靠性。定义了25个聚合函数和编程规则,创建了519个测试案例。
- LLM评估:评估了6个API基础模型、8个开源通用模型和9个开源代码生成模型。从粗粒度(成功率、完成率)和细粒度(VLM-as-a-judge、25个聚合函数)的角度进行评估。
DataSciBench提供了一个全面的基准测试,用于评估数据科学工作中LLM的性能。提出的半自动化管道使用谨慎编写的复杂问题生成GT,并评估聚合指标。创新的TFC框架支持基于预定义的聚合指标和编程规则的评估。实验结果表明,API基础模型通常比开源模型表现更好,尤其是GPT-4o表现最为出色。Deepseek-Coder-33B-Instruct在开源模型中表现最佳。所有模型在遵循详细指令、工具使用、计划和结果输出等方面都有改进的空间。
LLM评估的新视野
DataSciBench克服了现有基准测试的局限性,提供了反映实际数据科学工作复杂性的评估。TFC框架有助于提高数据科学工作评估的自动化和效率。
LLM开发方向
实验结果使LLM能够识别其优势和劣势,并提出改进方向。特别强调了遵循详细指令、工具利用能力、计划能力和结果输出格式的重要性。
数据科学领域的应用潜力
DataSciBench可以促进LLM在数据分析、可视化、建模等数据科学工作的自动化和效率提升。
未来研究方向
- 训练VLM作为批评模型,提高可视化评估的精度。
- 扩展基准测试,包括更多数据科学工作和场景。
- 开发评估LLM推理能力、解释能力等的指标。