大模型(LLMs)在各个领域的应用日益广泛,对其规划能力的评估变得至关重要。本文旨在深入探讨评估LLMs规划能力的一系列常用指标,涵盖从基本的成功率效率到高级的一致性工具使用以及最终的人机交互体验,力求为开发者和研究者提供一个全面而系统的评估框架,从而更好地了解和提升LLMs的实际应用价值。

规划正确性和准确性:成功率是基石

评估LLMs规划能力,首先要考察其能否准确无误地完成任务。成功率是衡量这一能力最基础的指标,可以细分为多个维度。

  • 响应成功率:评估LLM文本响应与标准答案的一致性。例如,在Webarena环境中,通过计算预测结果与答案之间的三种实例化函数(exact_match, must_include, fuzzy_match)来衡量匹配程度。假设一个LLM被要求在电商网站上找到一款特定的蓝色衬衫。如果LLM返回的结果是“已找到蓝色衬衫,品牌A,型号M”,而标准答案是“已找到蓝色衬衫,品牌A,型号L”,那么根据匹配函数的严格程度,可以判断其响应的准确性。
  • 步骤成功率:评估LLM预测的单步动作与专家标注动作的一致性。在Mind2Web数据集上,该指标用于评估LLM预测的单步网页操作(例如点击按钮、填写表单)与人工标注的动作是否一致。例如,LLM需要完成在线预订机票的任务,每一步操作都需要和人工预标注的动作完全一致,才能算作是成功。在FlowBench中,则直接使用GPT-4和一个评分模板来评分轨迹的正确性。
  • 基于状态的成功率:由于实现目标的路径并非唯一,一些指标基于在线环境评估正确性,以解决路径非唯一性问题。例如,最终状态成功率(final-state SR)检查程序执行后环境状态是否达到预期状态。TheAgentCompany则采用部分完成度评分(Partial Completion Score),检测中间状态的子任务是否完成。设想一个智能家居系统,目标是“将客厅温度调整到25摄氏度”,即使LLM通过不同的操作(例如调整空调、打开窗户)实现了这个目标,最终状态成功率仍然会很高。

规划效率和优化:时间和资源的考量

除了成功率规划能力的评估还应关注效率优化。这包括计划执行的效率以及生成计划本身的最优性。

  • 执行效率指标:评估计划执行过程中的操作经济性,例如完成任务所需的动作数量。LangSuit·E使用平均步骤数(Average Steps),PARTNR使用模拟步骤数(Simulation Steps)来衡量效率,步骤越少越好。例如,让LLM规划一个从北京到上海的行程,一个效率高的计划会直接推荐高铁,而一个效率低的计划可能会推荐先坐火车到广州,再坐飞机到上海,显然前者更优。
  • 计划优化:进一步评估在可行的计划中,选择的解决方案是否相对于特定任务标准最小化了累积资源消耗。PlanBench和OpenAI的o1模型研究是这方面的典型案例。比如,在资源受限的情况下,让LLM规划一个软件开发项目,它需要权衡开发时间、人力成本以及硬件资源,最终生成一个在预算内完成任务的最优方案。

规划一致性和合理性:符合逻辑与约束

为了确保生成的计划不仅符合用户指令,还与环境约束对齐,保证在现实世界中的可行性,一致性合理性是重要的评估维度。

  • 约束满足:侧重于验证计划在客观条件下的技术可行性。环境约束遵守(Environmental Constraint Adherence)评估计划是否尊重外部限制。ChinaTravel引入了环境通过率(Environmental Pass Rate),衡量满足预定义环境约束的程度。TravelPlanner定义了硬约束通过率(Hard Constraint Pass Rate),侧重于关键的查询指定要求。例如,在旅游规划中,LLM需要考虑预算限制、时间限制、以及当地的法规,不能推荐超出预算的酒店或者违反当地法律的行程。
  • 行动可执行性:评估每个计划的行动是否在给定的行动集中可以实现。Open Grounded Planning提出了可执行性指标,验证计划步骤是否存在于提供的行动库中。例如,让LLM控制一个机械臂完成装配任务,它只能使用预先设定的动作,不能凭空创造新的动作。
  • 认知连贯性:评估计划与人类直觉推理的一致性以及内部逻辑结构。常识对齐(Commonsense Alignment)衡量计划是否符合日常人类期望和直觉合理性。ActPlan-1K提出了常识满意度(Commonsense Satisfaction),TravelPlanner引入了常识通过率(Commonsense Pass Rate)来评估这一方面。例如,让LLM规划一个做饭的步骤,它需要知道先洗菜,再切菜,最后烹饪,而不是颠倒顺序。
  • 逻辑连贯性:评估计划步骤是否在逻辑上相互连接且没有矛盾。ChinaTravel定义了逻辑通过率(Logical Pass Rate)。CaT-BENCH的时间一致性(Temporal Consistency)衡量模型在整个执行过程中保持正确时间序列的能力。例如,LLM在规划一个事件流程时,需要保证事件的发生顺序符合逻辑,不能出现时间倒流的情况。

规划工具使用:精确调用与参数填充

评估LLMs的工具使用能力,可以细化为工具调用精度的分析。

  • 工具选择准确率:衡量在给定任务时是否选择了正确的工具。TaskBench使用节点F1(Node F1)和边F1(Edge F1)来衡量工具选择准确率。例如,当用户要求LLM“查询北京明天的天气”时,LLM需要选择天气查询的API,而不是选择翻译API。
  • 参数指定准确率:评估Agent是否正确填写了工具参数。TaskBench提出了参数名F1(Parameter Name F1)和参数名-值对F1(Parameter Name-Value Pair F1),评估参数生成的准确性。例如,在使用天气查询API时,LLM需要正确填写城市名称(北京)和日期(明天)作为参数,才能得到正确的结果。

人机交互:用户体验至关重要

最后,人机交互指标评估规划系统的整体性能和用户体验,突出其实际应用价值。

  • 以用户为中心的评估指标:捕捉人机交互的质量,包括可用性、认知负担和整体用户满意度等关键因素,这些因素最终决定了现实世界的采用和有效性。例如,评估用户在使用LLM规划旅行时的感受,是否觉得操作简单、信息清晰、结果满意。
  • 任务协调指标:衡量在联合任务执行期间,人与系统之间角色分配的有效性。PARTNR引入了任务卸载指标(Task offloading metric),评估任务在人和AI之间分配的效率。例如,在医疗诊断中,LLM可以辅助医生进行初步诊断,但最终的决策仍然由医生做出,需要合理分配任务,才能提高效率和准确性。精神投入、协作流畅性和解释清晰度也是重要的评估因素。例如,LLM不仅要给出诊断结果,还要给出清晰的解释,让医生理解其推理过程,从而建立信任。

总结:构建更智能、更实用的LLM规划系统

综上所述,对LLMs规划能力的评估需要一个多维度、系统化的方法。从基本的成功率效率,到高级的一致性工具使用,以及最终的人机交互体验,每一个环节都至关重要。通过深入理解和应用这些评估指标,开发者和研究者可以更好地了解LLMs的优势与不足,从而构建更智能、更实用、更人性化的规划系统,推动大模型技术在各个领域的广泛应用。未来的研究方向可以侧重于如何将这些评估指标自动化,如何设计更加复杂的测试用例,以及如何将评估结果反馈到模型训练中,从而实现持续的改进和优化。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注