在传统软件工程中,确定性是基石。给定相同的输入,函数始终产生相同的输出。这种可预测性使开发人员能够自信地构建复杂的系统。然而,大模型(LLM)的出现引入了一种范式转变。这些模型以概率方式运行,基于学习到的模式而不是显式规则生成输出。这种随机性挑战了传统的开发实践,尤其是在将 LLM 集成到需要精确 意图分类 的系统中时。为了评估 LLM 在这项任务上的能力,本文将深入探讨一项 意图分类 基准测试,旨在衡量不同 LLM 的准确性、置信度校准和响应延迟,帮助开发者更好地理解和选择合适的模型。

LLM 意图分类挑战

随着 LLM 在聊天机器人、虚拟助手和自动化客户服务等应用中变得不可或缺,准确解释用户意图至关重要。错误地分类用户的请求可能导致不相关的回复、降低用户信任和潜在的系统故障。例如,用户在聊天机器人中输入“今天天气怎么样?”,期望获得天气预报。如果 LLM 错误地将其意图分类为“搜索餐厅”,则会导致提供餐厅推荐而非天气信息,从而使用户体验大打折扣。因此,意图分类的准确性直接影响着用户体验和系统效率,这也是 LLM 应用中一个关键的挑战。

基准测试概述

为了应对上述挑战,AITrekker 开发了一项基准测试,旨在评估各种 LLM意图分类 能力,重点关注其准确性、置信度校准和响应延迟。这项基准测试评估 LLM 将用户查询分类到预定义类别的能力,例如:

  • 天气
  • 时间
  • 地图
  • 数学
  • 日期
  • 网页搜索
  • LLM (可以直接回答 LLM 的查询)
  • 未知

每个模型都被提示返回一个 JSON 响应,格式如下:

{
  "intent": "weather",
  "confidence": 0.92
}

这个 JSON 响应包含了模型预测的意图以及相应的置信度。通过对比模型预测的意图与实际意图,可以评估模型的准确性。置信度则反映了模型对其预测结果的把握程度。通过分析置信度与实际准确性之间的关系,可以评估模型的置信度校准情况。

测试模型及环境

意图分类 基准测试使用了 Ollama 框架,测试了以下 LLM

  • phi:3.8b
  • phi:4
  • gemma:2b
  • gemma:7b
  • gemma:13b
  • llama3:8b
  • llama3.2:1b
  • mistral-instruct
  • deepseek-r1
  • qwen:3.1–4b

Ollama 是一个流行的 LLM 本地运行框架,可以方便地部署和测试各种开源 LLM。选择这些模型的原因是它们具有不同的规模和架构,可以更好地了解不同 LLM意图分类 任务上的表现。此外,这些模型都是开源的,方便研究人员和开发者复现和改进测试结果。

结果分析

基准测试的结果显示,不同的 LLM意图分类 任务上表现出不同的优势和劣势。

  • Phi-3.8b: 在校准、正确性和延迟方面最为平衡。这意味着 Phi-3.8b 在保证准确性的同时,也能提供较快的响应速度,并且其置信度与实际准确性较为一致。
  • Gemma-2b: 在小型模型中表现出色。Gemma-2b 在模型规模较小的情况下,依然能够取得较好的 意图分类 效果,这表明其具有较高的参数效率。
  • Qwen 和 DeepSeek: 容易做出自信但错误的预测。这意味着 Qwen 和 DeepSeek 在某些情况下会给出非常高的置信度,但实际预测结果却是错误的,这需要开发者在使用这些模型时格外小心。

下图展示了不同模型在 Brier 分数和延迟方面的表现(该图包含在原文引用的链接中,此处无法直接展示,但可以说明结果分析的呈现方式):

Brier 分数是一种常用的概率预测评估指标,用于衡量预测结果的准确性和校准程度。Brier 分数越低,表示预测结果越准确且校准越好。通过对比不同模型在 Brier 分数和延迟方面的表现,可以更好地了解它们的性能特点,并根据实际应用需求选择合适的模型。

例如,在需要快速响应的场景下,可以选择延迟较低的模型。而在需要高准确性的场景下,则可以选择 Brier 分数较低的模型。此外,还需要考虑模型的置信度校准情况,避免使用容易做出自信但错误的预测的模型。

理解 LLM 的可信度

在使用 LLM 驱动下游工具时,理解何时以及为何信任 LLM 至关重要。这项基准测试是朝着以结构化方式评估这种可信度迈出的一步。有些模型产生答案的速度很快,但置信度却不稳定。其他模型则更加谨慎,并且校准得更好。正确的选择取决于您的应用 —— 您是需要速度、准确性还是连贯性。

例如,在金融领域的应用中,准确性至关重要。在这种情况下,即使模型响应速度较慢,也应该选择那些具有较高准确性和良好置信度校准的模型。而在客户服务领域,快速响应可能更为重要。在这种情况下,可以选择那些响应速度较快,但同时也要注意模型的置信度校准情况,避免因错误预测而导致客户不满。

应用案例

  • 智能客服: LLM 可以用于构建智能客服系统,自动回复用户的问题。通过 意图分类,可以将用户的问题路由到相应的知识库或人工客服,提高客户服务效率。
  • 语音助手: LLM 可以集成到语音助手中,理解用户的语音指令,并执行相应的操作。例如,用户可以说“播放我喜欢的音乐”,LLM 可以识别用户的意图,并控制音乐播放器播放音乐。
  • 自动化工作流程: LLM 可以用于自动化各种工作流程,例如文档摘要、邮件分类、代码生成等。通过 意图分类,可以识别文档、邮件或代码的意图,并执行相应的自动化操作。

结论与展望

大模型 正在改变软件开发的格局,而理解其 意图分类 能力对于构建可靠的应用程序至关重要。这项基准测试提供了一个框架,用于评估不同 LLM 的性能,并帮助开发者做出明智的选择。

如果您正在构建 LLM 驱动的代理或路由系统,以这种方式测试模型可以节省您在生产中的时间和避免意外情况。通过 AITrekker 提供的 GitHub 链接,您可以访问基准测试的代码和数据,并根据自己的需求进行定制和扩展。

如果您正在探索 AI 原生工作流程或构建智能代理,欢迎交流想法。让我们一起探索 大模型 的潜力,并构建更智能、更可靠的应用程序。未来的研究方向包括:

  • 探索更复杂的 意图分类 场景,例如多轮对话、上下文理解等。
  • 研究如何提高 LLM 的置信度校准能力,减少自信但错误的预测。
  • 开发更有效的 意图分类 方法,例如使用少量样本进行微调、利用外部知识库等。
  • 探索 LLM 在其他 NLP 任务中的应用,例如情感分析、命名实体识别、文本生成等。

通过不断的研究和实践,我们可以更好地理解 大模型 的能力,并将其应用于更广泛的领域,为人类带来更多的价值。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注