DataSciBench

DataSciBench基准测试提供一个全面、精炼、自然的挑战性提示（prompt）和不确定的答案，以及多样化的评估指标。为了生成答案（GT）和验证评估指标，开发了一个半自动化的管道，该管道利用基于LLM的自我一致性（self-consistency）和人工验证策略来生成准确的GT。

大型语言模型 (LLM)：原理、应用与实践指南