DataSciBench:数据科学领域的LLM代理基准测试
DataSciBench基准测试提供一个全面、精炼、自然的挑战性提示(prompt)和不确定的答案,以及多样化的评估指标。为了生成答案(GT)和验证评估指标,开发了一个半自动化的管道,该管道利用基于LLM的自我一致性(self-consistency)和人工验证策略来生成准确的GT。
DataSciBench基准测试提供一个全面、精炼、自然的挑战性提示(prompt)和不确定的答案,以及多样化的评估指标。为了生成答案(GT)和验证评估指标,开发了一个半自动化的管道,该管道利用基于LLM的自我一致性(self-consistency)和人工验证策略来生成准确的GT。