大模型意图分类基准测试：可靠性与信任的平衡

在传统软件工程中，确定性是基石。给定相同的输入，函数始终产生相同的输出。这种可预测性使开发人员能够自信地构建复杂的系统。然而，大模型(LLM)的出现引入了一种范式转变。这些模型以概率方式运行，基于学习到的模式而不是显式规则生成输出。这种随机性挑战了传统的开发实践，尤其是在将 LLM 集成到需要精确 意图分类 的系统中时。为了评估 LLM 在这项任务上的能力，本文将深入探讨一项 意图分类 基准测试，旨在衡量不同 LLM 的准确性、置信度校准和响应延迟，帮助开发者更好地理解和选择合适的模型。

LLM 意图分类挑战

随着 LLM 在聊天机器人、虚拟助手和自动化客户服务等应用中变得不可或缺，准确解释用户意图至关重要。错误地分类用户的请求可能导致不相关的回复、降低用户信任和潜在的系统故障。例如，用户在聊天机器人中输入“今天天气怎么样？”，期望获得天气预报。如果 LLM 错误地将其意图分类为“搜索餐厅”，则会导致提供餐厅推荐而非天气信息，从而使用户体验大打折扣。因此，意图分类的准确性直接影响着用户体验和系统效率，这也是 LLM 应用中一个关键的挑战。

基准测试概述

为了应对上述挑战，AITrekker 开发了一项基准测试，旨在评估各种 LLM 的 意图分类 能力，重点关注其准确性、置信度校准和响应延迟。这项基准测试评估 LLM 将用户查询分类到预定义类别的能力，例如：

天气
时间
地图
数学
日期
网页搜索
LLM (可以直接回答 LLM 的查询)
未知

每个模型都被提示返回一个 JSON 响应，格式如下：

{
  "intent": "weather",
  "confidence": 0.92
}

这个 JSON 响应包含了模型预测的意图以及相应的置信度。通过对比模型预测的意图与实际意图，可以评估模型的准确性。置信度则反映了模型对其预测结果的把握程度。通过分析置信度与实际准确性之间的关系，可以评估模型的置信度校准情况。

测试模型及环境

该 意图分类 基准测试使用了 Ollama 框架，测试了以下 LLM：

phi:3.8b
phi:4
gemma:2b
gemma:7b
gemma:13b
llama3:8b
llama3.2:1b
mistral-instruct
deepseek-r1
qwen:3.1–4b

Ollama 是一个流行的 LLM 本地运行框架，可以方便地部署和测试各种开源 LLM。选择这些模型的原因是它们具有不同的规模和架构，可以更好地了解不同 LLM 在 意图分类 任务上的表现。此外，这些模型都是开源的，方便研究人员和开发者复现和改进测试结果。

结果分析

基准测试的结果显示，不同的 LLM 在 意图分类 任务上表现出不同的优势和劣势。

Phi-3.8b: 在校准、正确性和延迟方面最为平衡。这意味着 Phi-3.8b 在保证准确性的同时，也能提供较快的响应速度，并且其置信度与实际准确性较为一致。
Gemma-2b: 在小型模型中表现出色。Gemma-2b 在模型规模较小的情况下，依然能够取得较好的 意图分类 效果，这表明其具有较高的参数效率。
Qwen 和 DeepSeek: 容易做出自信但错误的预测。这意味着 Qwen 和 DeepSeek 在某些情况下会给出非常高的置信度，但实际预测结果却是错误的，这需要开发者在使用这些模型时格外小心。

下图展示了不同模型在 Brier 分数和延迟方面的表现（该图包含在原文引用的链接中，此处无法直接展示，但可以说明结果分析的呈现方式）：

Brier 分数是一种常用的概率预测评估指标，用于衡量预测结果的准确性和校准程度。Brier 分数越低，表示预测结果越准确且校准越好。通过对比不同模型在 Brier 分数和延迟方面的表现，可以更好地了解它们的性能特点，并根据实际应用需求选择合适的模型。

例如，在需要快速响应的场景下，可以选择延迟较低的模型。而在需要高准确性的场景下，则可以选择 Brier 分数较低的模型。此外，还需要考虑模型的置信度校准情况，避免使用容易做出自信但错误的预测的模型。

理解 LLM 的可信度

在使用 LLM 驱动下游工具时，理解何时以及为何信任 LLM 至关重要。这项基准测试是朝着以结构化方式评估这种可信度迈出的一步。有些模型产生答案的速度很快，但置信度却不稳定。其他模型则更加谨慎，并且校准得更好。正确的选择取决于您的应用 —— 您是需要速度、准确性还是连贯性。

例如，在金融领域的应用中，准确性至关重要。在这种情况下，即使模型响应速度较慢，也应该选择那些具有较高准确性和良好置信度校准的模型。而在客户服务领域，快速响应可能更为重要。在这种情况下，可以选择那些响应速度较快，但同时也要注意模型的置信度校准情况，避免因错误预测而导致客户不满。

应用案例

智能客服: LLM 可以用于构建智能客服系统，自动回复用户的问题。通过 意图分类，可以将用户的问题路由到相应的知识库或人工客服，提高客户服务效率。
语音助手: LLM 可以集成到语音助手中，理解用户的语音指令，并执行相应的操作。例如，用户可以说“播放我喜欢的音乐”，LLM 可以识别用户的意图，并控制音乐播放器播放音乐。
自动化工作流程: LLM 可以用于自动化各种工作流程，例如文档摘要、邮件分类、代码生成等。通过 意图分类，可以识别文档、邮件或代码的意图，并执行相应的自动化操作。

结论与展望

大模型 正在改变软件开发的格局，而理解其 意图分类 能力对于构建可靠的应用程序至关重要。这项基准测试提供了一个框架，用于评估不同 LLM 的性能，并帮助开发者做出明智的选择。

如果您正在构建 LLM 驱动的代理或路由系统，以这种方式测试模型可以节省您在生产中的时间和避免意外情况。通过 AITrekker 提供的 GitHub 链接，您可以访问基准测试的代码和数据，并根据自己的需求进行定制和扩展。

如果您正在探索 AI 原生工作流程或构建智能代理，欢迎交流想法。让我们一起探索 大模型 的潜力，并构建更智能、更可靠的应用程序。未来的研究方向包括：

探索更复杂的 意图分类 场景，例如多轮对话、上下文理解等。
研究如何提高 LLM 的置信度校准能力，减少自信但错误的预测。
开发更有效的 意图分类 方法，例如使用少量样本进行微调、利用外部知识库等。
探索 LLM 在其他 NLP 任务中的应用，例如情感分析、命名实体识别、文本生成等。

通过不断的研究和实践，我们可以更好地理解 大模型 的能力，并将其应用于更广泛的领域，为人类带来更多的价值。

大模型意图分类基准测试：可靠性与信任的平衡

大模型意图分类基准测试：可靠性与信任的平衡

LLM 意图分类挑战

基准测试概述

测试模型及环境

结果分析

理解 LLM 的可信度

应用案例

结论与展望

By llmtrend

苹果“思考的幻觉”论文：真科研还是AI营销的障眼法？

大模型推理的幻觉：理解推理模型的优势与局限性

大模型“冰山之下”的知识：KnowSum如何揭示LLM的潜在能力？

发表回复取消回复

大模型时代的“搅拌机效应”：过度简化风格的隐忧

大模型AI：如烟般迷人，亦如烟般易上瘾？软件开发者如何应对这场变革？

Kragent.ai：从钢铁侠的Jarvis梦想到人人可用的AI助手现实

XTOPIA AI：利用LLM和RAG打造智能ChatGPT AI Chatbot，革新用户互动体验

利用 Gradio 快速构建交互式大模型应用数据仪表盘

You Missed

大模型时代的“搅拌机效应”：过度简化风格的隐忧

大模型时代的“搅拌机效应”：过度简化风格的隐忧

大模型AI：如烟般迷人，亦如烟般易上瘾？软件开发者如何应对这场变革？

大模型AI：如烟般迷人，亦如烟般易上瘾？软件开发者如何应对这场变革？

Kragent.ai：从钢铁侠的Jarvis梦想到人人可用的AI助手现实

Kragent.ai：从钢铁侠的Jarvis梦想到人人可用的AI助手现实

XTOPIA AI：利用LLM和RAG打造智能ChatGPT AI Chatbot，革新用户互动体验

XTOPIA AI：利用LLM和RAG打造智能ChatGPT AI Chatbot，革新用户互动体验

大模型意图分类基准测试：可靠性与信任的平衡

LLM 意图分类挑战

基准测试概述

测试模型及环境

结果分析

理解 LLM 的可信度

应用案例

结论与展望

By llmtrend

Related Post

苹果“思考的幻觉”论文：真科研还是AI营销的障眼法？

大模型推理的幻觉：理解推理模型的优势与局限性

大模型“冰山之下”的知识：KnowSum如何揭示LLM的潜在能力？

发表回复 取消回复

You Missed

大模型时代的“搅拌机效应”：过度简化风格的隐忧

大模型AI：如烟般迷人，亦如烟般易上瘾？软件开发者如何应对这场变革？

Kragent.ai：从钢铁侠的Jarvis梦想到人人可用的AI助手现实

XTOPIA AI：利用LLM和RAG打造智能ChatGPT AI Chatbot，革新用户互动体验

发表回复取消回复