HumanEval:对大型语言模型代码生成能力的最严苛考验
HumanEval是OpenAI首次用于评估LLMs代码生成能力的基准之一。这个基准是在2021年由chen等人发表的论文《Evaluating Large Language Models Trained on Code》中引入。
HumanEval是OpenAI首次用于评估LLMs代码生成能力的基准之一。这个基准是在2021年由chen等人发表的论文《Evaluating Large Language Models Trained on Code》中引入。