大模型规划能力评估：从成功率到人机交互，全方位指标解读

大模型（LLMs）在各个领域的应用日益广泛，对其规划能力的评估变得至关重要。本文旨在深入探讨评估LLMs规划能力的一系列常用指标，涵盖从基本的成功率、效率到高级的一致性、工具使用以及最终的人机交互体验，力求为开发者和研究者提供一个全面而系统的评估框架，从而更好地了解和提升LLMs的实际应用价值。

规划正确性和准确性：成功率是基石

评估LLMs规划能力，首先要考察其能否准确无误地完成任务。成功率是衡量这一能力最基础的指标，可以细分为多个维度。

响应成功率：评估LLM文本响应与标准答案的一致性。例如，在Webarena环境中，通过计算预测结果与答案之间的三种实例化函数（exact_match, must_include, fuzzy_match）来衡量匹配程度。假设一个LLM被要求在电商网站上找到一款特定的蓝色衬衫。如果LLM返回的结果是“已找到蓝色衬衫，品牌A，型号M”，而标准答案是“已找到蓝色衬衫，品牌A，型号L”，那么根据匹配函数的严格程度，可以判断其响应的准确性。
步骤成功率：评估LLM预测的单步动作与专家标注动作的一致性。在Mind2Web数据集上，该指标用于评估LLM预测的单步网页操作（例如点击按钮、填写表单）与人工标注的动作是否一致。例如，LLM需要完成在线预订机票的任务，每一步操作都需要和人工预标注的动作完全一致，才能算作是成功。在FlowBench中，则直接使用GPT-4和一个评分模板来评分轨迹的正确性。
基于状态的成功率：由于实现目标的路径并非唯一，一些指标基于在线环境评估正确性，以解决路径非唯一性问题。例如，最终状态成功率（final-state SR）检查程序执行后环境状态是否达到预期状态。TheAgentCompany则采用部分完成度评分（Partial Completion Score），检测中间状态的子任务是否完成。设想一个智能家居系统，目标是“将客厅温度调整到25摄氏度”，即使LLM通过不同的操作（例如调整空调、打开窗户）实现了这个目标，最终状态成功率仍然会很高。

规划效率和优化：时间和资源的考量

除了成功率，规划能力的评估还应关注效率和优化。这包括计划执行的效率以及生成计划本身的最优性。

执行效率指标：评估计划执行过程中的操作经济性，例如完成任务所需的动作数量。LangSuit·E使用平均步骤数（Average Steps），PARTNR使用模拟步骤数（Simulation Steps）来衡量效率，步骤越少越好。例如，让LLM规划一个从北京到上海的行程，一个效率高的计划会直接推荐高铁，而一个效率低的计划可能会推荐先坐火车到广州，再坐飞机到上海，显然前者更优。
计划优化：进一步评估在可行的计划中，选择的解决方案是否相对于特定任务标准最小化了累积资源消耗。PlanBench和OpenAI的o1模型研究是这方面的典型案例。比如，在资源受限的情况下，让LLM规划一个软件开发项目，它需要权衡开发时间、人力成本以及硬件资源，最终生成一个在预算内完成任务的最优方案。

规划一致性和合理性：符合逻辑与约束

为了确保生成的计划不仅符合用户指令，还与环境约束对齐，保证在现实世界中的可行性，一致性和合理性是重要的评估维度。

约束满足：侧重于验证计划在客观条件下的技术可行性。环境约束遵守（Environmental Constraint Adherence）评估计划是否尊重外部限制。ChinaTravel引入了环境通过率（Environmental Pass Rate），衡量满足预定义环境约束的程度。TravelPlanner定义了硬约束通过率（Hard Constraint Pass Rate），侧重于关键的查询指定要求。例如，在旅游规划中，LLM需要考虑预算限制、时间限制、以及当地的法规，不能推荐超出预算的酒店或者违反当地法律的行程。
行动可执行性：评估每个计划的行动是否在给定的行动集中可以实现。Open Grounded Planning提出了可执行性指标，验证计划步骤是否存在于提供的行动库中。例如，让LLM控制一个机械臂完成装配任务，它只能使用预先设定的动作，不能凭空创造新的动作。
认知连贯性：评估计划与人类直觉推理的一致性以及内部逻辑结构。常识对齐（Commonsense Alignment）衡量计划是否符合日常人类期望和直觉合理性。ActPlan-1K提出了常识满意度（Commonsense Satisfaction），TravelPlanner引入了常识通过率（Commonsense Pass Rate）来评估这一方面。例如，让LLM规划一个做饭的步骤，它需要知道先洗菜，再切菜，最后烹饪，而不是颠倒顺序。
逻辑连贯性：评估计划步骤是否在逻辑上相互连接且没有矛盾。ChinaTravel定义了逻辑通过率（Logical Pass Rate）。CaT-BENCH的时间一致性（Temporal Consistency）衡量模型在整个执行过程中保持正确时间序列的能力。例如，LLM在规划一个事件流程时，需要保证事件的发生顺序符合逻辑，不能出现时间倒流的情况。

规划工具使用：精确调用与参数填充

评估LLMs的工具使用能力，可以细化为工具调用精度的分析。

工具选择准确率：衡量在给定任务时是否选择了正确的工具。TaskBench使用节点F1（Node F1）和边F1（Edge F1）来衡量工具选择准确率。例如，当用户要求LLM“查询北京明天的天气”时，LLM需要选择天气查询的API，而不是选择翻译API。
参数指定准确率：评估Agent是否正确填写了工具参数。TaskBench提出了参数名F1（Parameter Name F1）和参数名-值对F1（Parameter Name-Value Pair F1），评估参数生成的准确性。例如，在使用天气查询API时，LLM需要正确填写城市名称（北京）和日期（明天）作为参数，才能得到正确的结果。

人机交互：用户体验至关重要

最后，人机交互指标评估规划系统的整体性能和用户体验，突出其实际应用价值。

以用户为中心的评估指标：捕捉人机交互的质量，包括可用性、认知负担和整体用户满意度等关键因素，这些因素最终决定了现实世界的采用和有效性。例如，评估用户在使用LLM规划旅行时的感受，是否觉得操作简单、信息清晰、结果满意。
任务协调指标：衡量在联合任务执行期间，人与系统之间角色分配的有效性。PARTNR引入了任务卸载指标（Task offloading metric），评估任务在人和AI之间分配的效率。例如，在医疗诊断中，LLM可以辅助医生进行初步诊断，但最终的决策仍然由医生做出，需要合理分配任务，才能提高效率和准确性。精神投入、协作流畅性和解释清晰度也是重要的评估因素。例如，LLM不仅要给出诊断结果，还要给出清晰的解释，让医生理解其推理过程，从而建立信任。

总结：构建更智能、更实用的LLM规划系统

综上所述，对LLMs规划能力的评估需要一个多维度、系统化的方法。从基本的成功率、效率，到高级的一致性、工具使用，以及最终的人机交互体验，每一个环节都至关重要。通过深入理解和应用这些评估指标，开发者和研究者可以更好地了解LLMs的优势与不足，从而构建更智能、更实用、更人性化的规划系统，推动大模型技术在各个领域的广泛应用。未来的研究方向可以侧重于如何将这些评估指标自动化，如何设计更加复杂的测试用例，以及如何将评估结果反馈到模型训练中，从而实现持续的改进和优化。

大模型规划能力评估：从成功率到人机交互，全方位指标解读