LLM如何成为我们的随叫随到工程师，并革新十万+零售渠道的管理方式

沃尔玛利用LLM（大型语言模型）和 MCP（模型上下文协议）构建的 AI 系统，大幅提升了运营效率和问题解决能力，实现了零售损失控制。通过将 LLM 应用于运营管理，沃尔玛不仅实现了 85% 的问题诊断时间缩短，还释放了工程师的创新潜力，并改善了门店的正常运行时间。沃尔玛的案例展示了 LLM 在复杂零售环境中的巨大潜力，它标志着 AI 在运营领域的未来已经到来。

背景：零售损失与复杂系统

沃尔玛面临着数十亿美元的零售损失问题，这些损失源于盗窃、欺诈或运营问题。为了解决这个问题，沃尔玛的团队运营和维护了一个由 AI 驱动的复杂的防损解决方案。该方案部署在 5000 多家商店，支持全球超过 10 万个收银通道。这个系统不仅仅是一个软件，它是一个复杂的实时网络，包括：

由 GPU 驱动的边缘服务器
安装在自助结账通道 (SCO) 的数千个摄像头
20 多个微服务，用于处理实时扫描和视频数据
横跨 BigQuery、Prometheus、Splunk 和内部平台的基础设施

这个庞大的系统依赖于各种硬件和软件组件的协同工作，任何一个环节出现故障都可能导致防损能力的下降。

问题：支持规模化与人力限制

沃尔玛的 零售损失 防控系统虽然强大，但其维护和故障排除面临着严峻的挑战。每个月，团队需要处理：

200-300 起生产事故
150-200 个警报
这些事故和警报分散在数千个通道和商店中

面对如此庞大的规模，如何高效地进行问题诊断和修复，成为了一个亟待解决的问题。最初，沃尔玛依赖于一个非技术性的 L2 支持团队，他们需要按照一份包含 40-50 个步骤的详细手册进行初步排查。平均而言，每个问题需要 15 分钟的调查，然后才能升级到工程（L3）团队。这种方法存在着以下问题：

耗时
重复
手动
消耗工程资源

这种人工处理方式效率低下，不仅浪费了大量的时间和精力，也限制了工程团队在创新方面的投入。沃尔玛迫切需要一个能够处理常规排查工作，而无需深入的技术知识或访问工程工具的系统。

解决方案：LLM + MCP

为了解决上述问题，沃尔玛构建了一个基于 LLM 和 MCP 的系统。MCP 是一个轻量级的编排层，它允许像 OpenAI 的 GPT-4o、Anthropic 的 Claude、Google Bard 和 Meta 的 LLaMA 这样的大型语言模型安全地连接到沃尔玛的各种系统，并以自然语言回答复杂的运营查询。

LLM 赋予了非技术人员与复杂系统交互的能力。通过 MCP，L2 支持团队可以使用简单的、高级的问题，例如：

“Store 1182 出了什么问题？”
“为什么 Lane 6 没有检测到扫描？”
“Store 3410 中 SCO #8 的摄像头是否正常工作？”

在幕后，MCP 从以下来源获取实时数据：

BigQuery（扫描事件等）
Prometheus（基础设施指标）
Splunk（应用程序日志）
边缘系统（VM 和摄像头健康状况）

LLM 负责解释数据，应用上下文，并返回关于问题所在以及如何解决的简明语言摘要。这种方案极大地简化了问题诊断过程，降低了对技术人员的依赖。

技术实现：AI 驱动的代码生成

沃尔玛在构建这个系统时，充分利用了 AI 的代码生成能力。工程师们没有手动编写任何代码，而是使用 GitHub Copilot 和 LLM 生成了所有代码，包括：

用于查询和统一不同遥测源的 MCP 协议
用于 BigQuery、Prometheus、Splunk 和边缘平台的适配器
API 集成、错误处理和身份验证流程
用于将数据转换为可操作诊断的提示工程

这不仅仅是使用 AI，更是利用 AI 进行构建。沃尔玛从编写系统转变为提示系统，极大地提升了开发效率。LLM 强大的代码生成能力降低了开发成本，并加速了系统的部署。

影响：效率提升与业务价值

LLM 和 MCP 的引入带来了显著的改善：

L2 支持人员可以获得即时、可操作的答案——无需脚本编写，无需仪表板。
问题诊断时间从 15 分钟以上缩短到 2 分钟以下，降低了85%。
工程团队可以专注于创新，而不是救火。
正常运行时间得到了改善，防损检测的弹性也比以往任何时候都强。
非技术支持人员现在能够以前所未有的方式与技术系统合作。

在过去，诊断问题需要经验和在复杂的仪表板之间切换。现在，LLM 驱动的系统简化了流程，提高了效率，并增强了团队的协作能力。

以下是具体的影响数据：

85% 的问题诊断时间缩短
更快的根本原因识别
门店正常运行时间改善，防损检测准确性提高
支持团队现在无需工程帮助即可解决更多问题

这不仅仅是理论上的 AI，而是实实在在的生产力、可靠性和 ROI。沃尔玛的案例表明，LLM 能够为企业带来切实的商业价值。

未来展望：更广泛的应用

目前，MCP 正在工程师的机器上本地运行，用于测试和迭代。但沃尔玛正准备更广泛地推广它。未来的里程碑包括：

构建一个用户友好的 UI，以便 L2 支持人员可以轻松使用 MCP，而无需工程工具或访问权限
将 MCP 部署到一个安全、可扩展的环境中，具有基于角色的访问、监控和企业级基础设施
扩展用例。除了诊断之外，沃尔玛正在使 MCP 能够自动运行已知的修复步骤——例如重启服务、重新调整摄像头馈送或重新验证 GPU 健康状况——以便在几乎不需要人工干预的情况下解决事件

沃尔玛计划将 MCP 应用于更广泛的场景，进一步提升运营效率和自动化水平。

从自动化走向自主化

沃尔玛的终极目标是实现系统的自主化，LLM 不再仅仅是一个辅助工具，而是成为一个能够自主决策和执行的智能体。通过将 LLM 与 MCP 集成，沃尔玛正在朝着这个目标迈进。

通过将 LLM 与 MCP 相结合，沃尔玛能够自动化许多以前需要人工干预的任务。例如，MCP 可以自动检测到摄像头故障，并指示 LLM 自动重新启动摄像头服务。在未来，沃尔玛计划将 LLM 的应用范围扩展到更复杂的任务，例如预测设备故障和优化运营流程。

结论：LLM 的未来

沃尔玛提出的问题是：“如果 LLM 不仅仅是助手，它们还能运行运营呢？” 答案是？他们绝对可以。借助 MCP，LLM 成为沃尔玛的随叫随到工程师、诊断专家和零售运营副驾驶员——无需手动代码，并具有巨大的优势。这体现了 LLM 在以下几个方面的巨大潜力：

运营效率提升：通过自动化诊断和修复过程，LLM 能够显著缩短停机时间，提高运营效率。
成本降低：减少对人工干预的依赖，降低了人力成本。
创新加速：释放工程团队的创新能力，加速新技术的开发和应用。

这不仅仅是 AI 在运营领域的未来，而且未来已经在发挥作用。沃尔玛的经验表明，LLM 有能力革新企业运营的方式。随着 LLM 技术的不断发展，我们有理由相信，LLM 将在更多领域发挥更大的作用。

LLM如何成为我们的随叫随到工程师，并革新十万+零售渠道的管理方式