沃尔玛利用LLM(大型语言模型)和 MCP(模型上下文协议)构建的 AI 系统,大幅提升了运营效率和问题解决能力,实现了零售损失控制。 通过将 LLM 应用于运营管理,沃尔玛不仅实现了 85% 的问题诊断时间缩短,还释放了工程师的创新潜力,并改善了门店的正常运行时间。沃尔玛的案例展示了 LLM 在复杂零售环境中的巨大潜力,它标志着 AI 在运营领域的未来已经到来。

背景:零售损失与复杂系统

沃尔玛面临着数十亿美元的零售损失问题,这些损失源于盗窃、欺诈或运营问题。为了解决这个问题,沃尔玛的团队运营和维护了一个由 AI 驱动的复杂的防损解决方案。该方案部署在 5000 多家商店,支持全球超过 10 万个收银通道。这个系统不仅仅是一个软件,它是一个复杂的实时网络,包括:

  • 由 GPU 驱动的边缘服务器
  • 安装在自助结账通道 (SCO) 的数千个摄像头
  • 20 多个微服务,用于处理实时扫描和视频数据
  • 横跨 BigQuery、Prometheus、Splunk 和内部平台的基础设施

这个庞大的系统依赖于各种硬件和软件组件的协同工作,任何一个环节出现故障都可能导致防损能力的下降。

问题:支持规模化与人力限制

沃尔玛的 零售损失 防控系统虽然强大,但其维护和故障排除面临着严峻的挑战。每个月,团队需要处理:

  • 200-300 起生产事故
  • 150-200 个警报
  • 这些事故和警报分散在数千个通道和商店中

面对如此庞大的规模,如何高效地进行问题诊断和修复,成为了一个亟待解决的问题。最初,沃尔玛依赖于一个非技术性的 L2 支持团队,他们需要按照一份包含 40-50 个步骤的详细手册进行初步排查。平均而言,每个问题需要 15 分钟的调查,然后才能升级到工程(L3)团队。这种方法存在着以下问题:

  • 耗时
  • 重复
  • 手动
  • 消耗工程资源

这种人工处理方式效率低下,不仅浪费了大量的时间和精力,也限制了工程团队在创新方面的投入。沃尔玛迫切需要一个能够处理常规排查工作,而无需深入的技术知识或访问工程工具的系统。

解决方案:LLM + MCP

为了解决上述问题,沃尔玛构建了一个基于 LLMMCP 的系统。MCP 是一个轻量级的编排层,它允许像 OpenAI 的 GPT-4o、Anthropic 的 Claude、Google Bard 和 Meta 的 LLaMA 这样的大型语言模型安全地连接到沃尔玛的各种系统,并以自然语言回答复杂的运营查询。

LLM 赋予了非技术人员与复杂系统交互的能力。通过 MCP,L2 支持团队可以使用简单的、高级的问题,例如:

  • “Store 1182 出了什么问题?”
  • “为什么 Lane 6 没有检测到扫描?”
  • “Store 3410 中 SCO #8 的摄像头是否正常工作?”

在幕后,MCP 从以下来源获取实时数据:

  • BigQuery(扫描事件等)
  • Prometheus(基础设施指标)
  • Splunk(应用程序日志)
  • 边缘系统(VM 和摄像头健康状况)

LLM 负责解释数据,应用上下文,并返回关于问题所在以及如何解决的简明语言摘要。这种方案极大地简化了问题诊断过程,降低了对技术人员的依赖。

技术实现:AI 驱动的代码生成

沃尔玛在构建这个系统时,充分利用了 AI 的代码生成能力。工程师们没有手动编写任何代码,而是使用 GitHub Copilot 和 LLM 生成了所有代码,包括:

  • 用于查询和统一不同遥测源的 MCP 协议
  • 用于 BigQuery、Prometheus、Splunk 和边缘平台的适配器
  • API 集成、错误处理和身份验证流程
  • 用于将数据转换为可操作诊断的提示工程

这不仅仅是使用 AI,更是利用 AI 进行构建。沃尔玛从编写系统转变为提示系统,极大地提升了开发效率。LLM 强大的代码生成能力降低了开发成本,并加速了系统的部署。

影响:效率提升与业务价值

LLMMCP 的引入带来了显著的改善:

  • L2 支持人员可以获得即时、可操作的答案——无需脚本编写,无需仪表板。
  • 问题诊断时间从 15 分钟以上缩短到 2 分钟以下, 降低了85%
  • 工程团队可以专注于创新,而不是救火。
  • 正常运行时间得到了改善,防损检测的弹性也比以往任何时候都强。
  • 非技术支持人员现在能够以前所未有的方式与技术系统合作。

在过去,诊断问题需要经验和在复杂的仪表板之间切换。现在,LLM 驱动的系统简化了流程,提高了效率,并增强了团队的协作能力。

以下是具体的影响数据:

  • 85% 的问题诊断时间缩短
  • 更快的根本原因识别
  • 门店正常运行时间改善,防损检测准确性提高
  • 支持团队现在无需工程帮助即可解决更多问题

这不仅仅是理论上的 AI,而是实实在在的生产力、可靠性和 ROI。沃尔玛的案例表明,LLM 能够为企业带来切实的商业价值。

未来展望:更广泛的应用

目前,MCP 正在工程师的机器上本地运行,用于测试和迭代。但沃尔玛正准备更广泛地推广它。未来的里程碑包括:

  • 构建一个用户友好的 UI,以便 L2 支持人员可以轻松使用 MCP,而无需工程工具或访问权限
  • MCP 部署到一个安全、可扩展的环境中,具有基于角色的访问、监控和企业级基础设施
  • 扩展用例。除了诊断之外,沃尔玛正在使 MCP 能够自动运行已知的修复步骤——例如重启服务、重新调整摄像头馈送或重新验证 GPU 健康状况——以便在几乎不需要人工干预的情况下解决事件

沃尔玛计划将 MCP 应用于更广泛的场景,进一步提升运营效率和自动化水平。

从自动化走向自主化

沃尔玛的终极目标是实现系统的自主化,LLM 不再仅仅是一个辅助工具,而是成为一个能够自主决策和执行的智能体。 通过将 LLMMCP 集成,沃尔玛正在朝着这个目标迈进。

通过将 LLMMCP 相结合,沃尔玛能够自动化许多以前需要人工干预的任务。例如,MCP 可以自动检测到摄像头故障,并指示 LLM 自动重新启动摄像头服务。在未来,沃尔玛计划将 LLM 的应用范围扩展到更复杂的任务,例如预测设备故障和优化运营流程。

结论:LLM 的未来

沃尔玛提出的问题是:“如果 LLM 不仅仅是助手,它们还能运行运营呢?” 答案是? 他们绝对可以。借助 MCPLLM 成为沃尔玛的随叫随到工程师、诊断专家和零售运营副驾驶员——无需手动代码,并具有巨大的优势。这体现了 LLM 在以下几个方面的巨大潜力:

  • 运营效率提升: 通过自动化诊断和修复过程,LLM 能够显著缩短停机时间,提高运营效率。
  • 成本降低: 减少对人工干预的依赖,降低了人力成本。
  • 创新加速: 释放工程团队的创新能力,加速新技术的开发和应用。

这不仅仅是 AI 在运营领域的未来,而且未来已经在发挥作用。沃尔玛的经验表明,LLM 有能力革新企业运营的方式。 随着 LLM 技术的不断发展,我们有理由相信,LLM 将在更多领域发挥更大的作用。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注