Ollama VRAM 泄漏排查利器：脚本化检测与清理

Ollama 作为一款强大的大模型本地部署工具，因其便捷性受到了广泛欢迎。然而，在 v0.7.0 之前的版本中，存在一个隐蔽的 VRAM 泄漏 问题，即使卸载模型后，GPU 显存也可能被逐渐耗尽。本文将深入探讨这一问题，并介绍一款由 DeepSeek V3 驱动的 Bash 脚本，它可以自动化检测和清理这些“僵尸进程”，有效解决 Ollama VRAM 泄漏 问题，保持系统稳定运行。

VRAM 泄漏：潜伏的性能杀手

VRAM 泄漏 是一个隐蔽而棘手的性能问题。在使用 Ollama 运行大模型时，每个模型通常会启动一个或多个 runner 进程来负责模型的运行。正常情况下，当模型被卸载后，这些 runner 进程应该被正确终止，释放其占用的 VRAM。然而，由于 Ollama 自身的 bug，部分 runner 进程可能没有被完全终止，变成了“僵尸进程”。这些僵尸进程会持续占用 VRAM，导致可用显存逐渐减少。

随着时间的推移，VRAM 泄漏 会对系统性能产生负面影响。首先，如果可用的 VRAM 不足，新的模型可能无法加载，导致无法正常使用 Ollama。其次，即使可以加载模型，由于显存资源紧张，模型的推理速度也可能变慢，影响用户体验。更严重的情况下，VRAM 泄漏 甚至可能导致系统崩溃。

举个例子，假设你使用 Ollama 加载并运行了多个大型模型，例如 Llama 2 70B 和 CodeLlama 34B。在卸载这些模型后，你发现系统的 GPU 利用率仍然很高，即使没有任何程序在运行。使用 nvidia-smi 命令检查后，你发现 VRAM 几乎被完全占用。这就是典型的 Ollama VRAM 泄漏 现象。

脚本化检测：精准定位问题根源

为了解决 Ollama VRAM 泄漏 问题，Rafał Kędziorski 开发了一个 Bash 脚本，它可以自动化检测系统中的“僵尸进程”，帮助用户快速定位问题根源。该脚本的核心原理是比较当前活跃的模型数量和正在运行的 runner 进程数量。

活跃模型数量： 通过 ollama ps 命令获取当前正在运行的模型列表。
runner 进程数量： 通过 ps 命令查找所有与 Ollama 相关的 runner 进程。

如果 runner 进程数量多于活跃模型数量，则表明系统中存在“僵尸进程”，这些进程占用了 VRAM 但没有实际运行任何模型。

该脚本的检测过程非常高效，可以在几秒钟内完成。它不仅可以检测 VRAM 泄漏，还可以提供详细的进程信息，例如进程 ID、启动时间等，帮助用户更好地理解问题。

例如，运行脚本后，如果输出显示 “Found 2 runner processes but only 1 active models!”，则表示系统中存在一个“僵尸进程”。脚本还会输出该僵尸进程的详细信息，例如启动时间 “Wed May 21 14:23:34 2025″，可以帮助你判断该进程是否应该存在。

自动化清理：一键解决 VRAM 难题

除了检测 VRAM 泄漏，该脚本还可以自动化清理这些“僵尸进程”，释放被占用的 VRAM。其清理的核心方法是重启 Ollama 服务。

在重启 Ollama 服务之前，脚本会执行以下操作：

日志备份： 从 journalctl 中提取与 Ollama 相关的日志，并将其压缩保存到文件中，以便后续分析。提取日志的时间范围是僵尸进程启动前 30 分钟到重启服务的时间。
用户确认： 提示用户确认是否要重启 Ollama 服务，避免误操作导致数据丢失。

在重启 Ollama 服务之后，脚本会执行以下操作：

服务状态检查： 检查 Ollama 服务是否已成功启动。
日志查看选项： 提示用户查看备份的日志文件，以便分析 VRAM 泄漏 的原因。
日志删除选项： 提示用户删除备份的日志文件，释放磁盘空间。

通过以上步骤，该脚本可以安全有效地清理 Ollama 的 VRAM 泄漏 问题，恢复系统的性能。

脚本使用指南：轻松上手，高效排查

该脚本的使用非常简单，只需以下几个步骤：

下载脚本： 从 GitHub Gist 下载 ollama_detect_problems.sh 脚本。
授予执行权限： 使用 chmod +x ollama_detect_problems.sh 命令授予脚本执行权限。
运行脚本： 使用 ./ollama_detect_problems.sh 命令运行脚本。

脚本提供了两个可选参数：

--dry-run：模拟运行脚本，但不执行实际的重启操作和日志捕获操作。
--debug：打印详细的调试信息，例如计算的时间戳、原始命令输出等。

例如，使用 ./ollama_detect_problems.sh --debug 命令可以运行脚本并打印详细的调试信息。使用 ./ollama_detect_problems.sh --dry-run 命令可以模拟运行脚本，但不执行实际的重启操作。

通过灵活使用这些参数，你可以根据实际情况选择合适的运行模式，更好地排查 Ollama VRAM 泄漏 问题。

案例分析：脚本助力解决实际问题

以下是一个使用该脚本解决 Ollama VRAM 泄漏 问题的实际案例：

一位用户在使用 Ollama 运行多个大型语言模型后，发现 GPU 显存占用率持续居高不下，即使所有模型都已经卸载。他怀疑存在 VRAM 泄漏 问题，但无法确定具体原因。

于是，他下载并运行了 ollama_detect_problems.sh 脚本，并使用了 --debug 参数。脚本的输出显示，存在多个 runner 进程，但只有一个活跃模型。这证实了他的怀疑，确实存在 VRAM 泄漏 问题。

脚本还输出了僵尸进程的启动时间，他发现这些进程都是在他卸载模型后仍然存在的。为了解决问题，他按照脚本的提示，重启了 Ollama 服务。重启后，GPU 显存占用率恢复正常，VRAM 泄漏 问题得到解决。

通过这个案例可以看出，该脚本可以有效地帮助用户检测和解决 Ollama VRAM 泄漏 问题，提高 Ollama 的稳定性和性能。

展望未来：持续优化，提升用户体验

虽然 ollama_detect_problems.sh 脚本可以有效地解决 Ollama VRAM 泄漏 问题，但仍然存在一些可以改进的地方。例如，可以增加自动识别 Ollama 版本的功能，并根据不同版本采取不同的清理策略。还可以增加更详细的错误提示信息，帮助用户更好地理解问题。

Ollama 团队也在积极修复 VRAM 泄漏 问题。在未来的版本中，这个问题有望得到彻底解决。

总而言之，Ollama VRAM 泄漏 是一个需要重视的问题。通过使用 ollama_detect_problems.sh 脚本，我们可以有效地检测和解决这个问题，保持系统的稳定运行。希望本文能够帮助你更好地理解和使用 Ollama。

记住，如果你遇到 Ollama VRAM 泄漏 问题，不妨试试这款脚本，它可能会给你带来意想不到的惊喜！同时也期待 Ollama 团队能够尽快修复这个问题，为用户提供更加稳定可靠的大模型本地部署体验。

Ollama VRAM 泄漏排查利器：脚本化检测与清理