DataSciBench：数据科学领域的LLM代理基准测试

大型语言模型（LLM）已经成为一个重要的研究和应用方向。这些模型因其在理解和生成自然语言方面的能力而受到广泛关注。然而，现有的LLM基准测试往往集中在单一任务、易于获取的确切答案（ground truth）和简单的评估指标上，这限制了它们评估的作业范围。实际的数据科学工作更为复杂，需要不确定的答案和多样化的评估指标。针对这一挑战，本文介绍了DataSciBench，这是一个为评估数据科学领域中LLM能力而设计的综合性基准测试。

DataSciBench概述

DataSciBench基准测试旨在提供一个全面、精炼、自然的挑战性提示（prompt）和不确定的答案，以及多样化的评估指标。为了生成答案（GT）和验证评估指标，开发了一个半自动化的管道，该管道利用基于LLM的自我一致性（self-consistency）和人工验证策略来生成准确的GT。此外，提出了一个创新的Task-Function-Code（TFC）框架，根据定义的指标和编程规则评估代码执行结果。

模型测试结果

主要指标

SR（成功率）：在10次执行中，所有TFC（任务、功能、代码）都通过的提示的比率。
CR（完成率）：每个TFC步骤的完成分数总和除以最大可能分数。
VLM：使用VLM-as-a-judge对视觉输入进行整体评分评估。
F1至F5：细分的聚合指标（数据清洗质量、图表有效性、数据准确性、可视化完整性、模型准确性）。
Score：最终分数（加权平均）。

结果总结

API基础模型（如GPT-4o）平均表现优于开源模型。GPT-4o在所有指标中都超越了其他模型，得分最高（64.51）。在开源模型中，Deepseek-Coder-33B-Instruct得分最高（56.76）。所有模型在遵循详细指令、适当调用工具、准确执行计划和导出所需执行结果等方面都有改进的空间。

测试数据集列表和内容

数据集构成

包含222个实际且具有挑战性的高质量提示，519个GT（Ground Truth）。

数据集来源

CodeGeeX：从在线代码生成平台收集实际用户的自然提示。
BigCodeBench (BCB)：提取并精炼167个高质量数据科学提示，以适应DataSciBench格式（输入数据/文件、提示、预期输出文件、TFC）。
人工编写：参考相关网站编写精细的提示。
LLM合成：使用人工编写的提示作为少量示例，通过LLM生成提示。

提示特征

包括自然语言、挑战性、高质量。
包含6种定义的数据科学工作（数据预处理、统计、可视化、挖掘、解释等）。
要求多种类型的结果，以进行全面评估。
通过问题过滤去除低质量的问题（包括“机器学习”、“深度学习”、“数据预处理”、“数据可视化”等关键词，但排除代码重写、错误查找、基本概念解释等）。
专家审查：计算机科学和数据分析专家审查提示，确保质量（准确性、适当性、明确性等）。

研究方法论和结论

研究方法论

提示定义和收集：定义6种数据科学工作类型，从多个来源收集和过滤提示，并通过专家审查进行质量管理。
响应集成和验证：TFC（任务-功能-代码）框架：评估每个提示的主要工作。
任务（Task）：提示中要求的数据科学工作类型（6种中的一个或多个）。
功能（Function）：评估每个工作的特定评估函数（例如，数据清洗完整性、可视化完整性等）。
代码（Code）：实现评估函数的编程代码。
半自动化管道：利用LLM生成GT和验证评估指标。通过自我一致性策略和人工验证确保准确性和可靠性。定义了25个聚合函数和编程规则，创建了519个测试案例。
LLM评估：评估了6个API基础模型、8个开源通用模型和9个开源代码生成模型。从粗粒度（成功率、完成率）和细粒度（VLM-as-a-judge、25个聚合函数）的角度进行评估。

DataSciBench提供了一个全面的基准测试，用于评估数据科学工作中LLM的性能。提出的半自动化管道使用谨慎编写的复杂问题生成GT，并评估聚合指标。创新的TFC框架支持基于预定义的聚合指标和编程规则的评估。实验结果表明，API基础模型通常比开源模型表现更好，尤其是GPT-4o表现最为出色。Deepseek-Coder-33B-Instruct在开源模型中表现最佳。所有模型在遵循详细指令、工具使用、计划和结果输出等方面都有改进的空间。

LLM评估的新视野

DataSciBench克服了现有基准测试的局限性，提供了反映实际数据科学工作复杂性的评估。TFC框架有助于提高数据科学工作评估的自动化和效率。

LLM开发方向

实验结果使LLM能够识别其优势和劣势，并提出改进方向。特别强调了遵循详细指令、工具利用能力、计划能力和结果输出格式的重要性。

数据科学领域的应用潜力

DataSciBench可以促进LLM在数据分析、可视化、建模等数据科学工作的自动化和效率提升。

未来研究方向

训练VLM作为批评模型，提高可视化评估的精度。
扩展基准测试，包括更多数据科学工作和场景。
开发评估LLM推理能力、解释能力等的指标。

DataSciBench：数据科学领域的LLM代理基准测试

DataSciBench概述

模型测试结果

主要指标

结果总结

测试数据集列表和内容

数据集构成

数据集来源

提示特征

研究方法论和结论

研究方法论

LLM评估的新视野

LLM开发方向

数据科学领域的应用潜力

未来研究方向

By llmtrend

大模型推理的幻觉：Apple揭示AI“思考”的局限性

大模型时代：用Perplexity洞察模型的不确定性与评估盲点

大模型玩转中文创意：解密荷兰语Cryptogram的语言模型创造力

发表回复取消回复

大型语言模型 (LLM)：原理、应用与实践指南

2025年大模型前沿架构：量化创新深度解析

基于FastAPI与RAG的电商智能聊天机器人：从入门到实践

LLM赋能：一个Spring Boot应用如何替代五个微服务API？

大模型推理的幻觉：Apple揭示AI“思考”的局限性

You Missed

大型语言模型 (LLM)：原理、应用与实践指南

大型语言模型 (LLM)：原理、应用与实践指南

2025年大模型前沿架构：量化创新深度解析

2025年大模型前沿架构：量化创新深度解析

基于FastAPI与RAG的电商智能聊天机器人：从入门到实践

基于FastAPI与RAG的电商智能聊天机器人：从入门到实践

LLM赋能：一个Spring Boot应用如何替代五个微服务API？

LLM赋能：一个Spring Boot应用如何替代五个微服务API？

DataSciBench概述

模型测试结果

主要指标

结果总结

测试数据集列表和内容

数据集构成

数据集来源

提示特征

研究方法论和结论

研究方法论

LLM评估的新视野

LLM开发方向

数据科学领域的应用潜力

未来研究方向

By llmtrend

Related Post

大模型推理的幻觉：Apple揭示AI“思考”的局限性

大模型时代：用Perplexity洞察模型的不确定性与评估盲点

大模型玩转中文创意：解密荷兰语Cryptogram的语言模型创造力

发表回复 取消回复

You Missed

大型语言模型 (LLM)：原理、应用与实践指南

2025年大模型前沿架构：量化创新深度解析

基于FastAPI与RAG的电商智能聊天机器人：从入门到实践

LLM赋能：一个Spring Boot应用如何替代五个微服务API？

发表回复取消回复