利用大模型 (LLM) 自动化 Git Commit 信息：commAIt 助力高效开发

编写清晰且有意义的 Git commit 信息对于维护良好的项目历史至关重要。然而，这个任务经常被忽略或草率完成。本文将介绍一款利用大模型 (LLM) 技术的工具 commAIt，它能自动化生成 Git commit 信息，从而显著提升开发效率和代码可维护性。我们将深入探讨 commAIt 的工作原理、使用方法，以及未来发展方向，展示其在 Git 工作流程中的强大潜力。

commit 信息的重要性与痛点

良好的 Git commit 信息是项目版本控制的基石。它不仅能帮助开发者快速了解每次提交所做的更改，还能方便后续的错误排查、功能回溯和代码审计。一个规范的 commit 信息应包含以下要素：

简明扼要的总结: 快速概括本次提交的目的和内容。
详细的描述: 解释修改的原因、方法和影响。
关联的 Issue 或任务 ID: 方便追踪和管理任务进度。
符合项目规范的格式: 保持 commit 信息风格的一致性。

然而，在实际开发中，编写高质量的 commit 信息往往面临以下痛点：

耗时费力: 需要仔细分析代码变更，并将其转化为清晰易懂的文字描述。
容易出错: 手动编写容易遗漏关键信息，或者出现描述不准确的情况。
风格不统一: 不同开发者编写的 commit 信息风格各异，影响代码库的整体质量。
缺乏规范: 许多团队没有明确的 commit 信息规范，导致信息质量参差不齐。

这些痛点导致开发人员常常敷衍了事，提交一些诸如 “fix bug”、”update code” 之类的模糊信息，长此以往，项目的可维护性将大打折扣。

commAIt：基于 LLM 的自动化 commit 信息生成

commAIt 正是为了解决上述痛点而生的。它是一款命令行工具，能够与 Git 工作流程无缝集成，利用大模型 (LLM) 自动生成 commit 信息。其核心优势在于：

自动化生成: 通过分析 git diff 的输出，自动生成描述代码变更的 commit 信息。
本地运行: 基于 Ollama 在本地运行，无需 API 密钥，保护数据隐私。
支持多种模型: 支持 Mistral, LLaMA 3, Code LLaMA 等流行的开源模型，灵活选择。
可定制化: 允许用户自定义提示语 (Prompt)，以满足不同的项目规范和团队需求。

简单来说，commAIt 的工作流程如下：

开发者执行 commAIt 命令。
commAIt 使用 git diff --cached 获取暂存的更改。
commAIt 构建一个包含 Git diff 的提示语，发送给本地运行的 LLM 模型。
LLM 模型根据提示语生成 commit 信息。
commAIt 显示生成的 commit 信息，并允许开发者编辑或接受。
开发者确认后，commAIt 将 commit 信息添加到新的 commit 中。

通过这个流程，commAIt 将开发者从繁琐的 commit 信息编写工作中解放出来，大大提高了开发效率。

commAIt 的技术实现细节

commAIt 的核心在于如何将 Git diff 转化为 LLM 模型能够理解并生成有用信息的提示语 (Prompt)。默认提示语如下：

You are a helpful assistant that writes **only** clean, conventional git commit messages.

Guidelines:
- Respond with just the commit message.
- Start with a short summary line (max ~70 chars).
- Use imperative mood (e.g., "Fix crash", "Add support for...").
- Next lines should start with dashes and also use imperative
- Do not include labels like "Commit message:", "Here is the message:", etc.
- Do not include explanations, apologies, or greetings.
- Output only the message, nothing else.

Now, based on the following diff, write only the commit message:

{diff}

这个提示语明确了 LLM 模型的角色（一个 Git commit 信息编写助手）、行为准则（简洁、使用祈使语气、不包含多余信息）以及输入内容（Git diff）。

LLM 模型接收到这个提示语后，会像人类开发者一样，分析 Git diff，理解代码变更的意图，并根据提示语的要求生成 commit 信息。例如，对于一个修复 bug 的代码变更，LLM 模型可能会生成如下 commit 信息：

Fix crash in error reporting module
- Handle edge case when report payload is null
- Add fallback logging
- Improve error message clarity

这个 commit 信息简洁明了地描述了 bug 的原因和修复方法，符合良好的 commit 信息规范。

commAIt 使用 Python 编写，依赖于 Ollama 提供的 API。Ollama 允许开发者在本地运行各种 LLM 模型，无需担心数据隐私和网络连接问题。

commAIt 的安装和使用

要开始使用 commAIt，需要先安装 Python 3.7 或更高版本，并安装 Ollama。然后，按照以下步骤进行：

克隆 commAIt 的 GitHub 仓库：git clone https://github.com/Trigo93/commit_msg_llm.git
进入 commAIt 目录：cd commit_msg_llm
使用 pip 安装：pip3 install .

安装完成后，就可以在任何包含 Git 仓库的项目中使用 commAIt 了。使用方法非常简单：

commait [optional] -h -d -j <jira_ticket>

其中：

-h：显示帮助信息。
-d：显示生成的 commit 信息，但不添加到 commit 中。
-j <jira_ticket>：关联 Jira 任务 ID。

例如，要为一个修复 bug 的代码变更生成 commit 信息，并关联 Jira 任务 ABC-123，可以执行以下命令：

commait -j ABC-123

commAIt 将会分析 Git diff，生成 commit 信息，并提示开发者编辑或接受。确认后，commAIt 将 commit 信息添加到新的 commit 中。

commAIt 的优势与局限性

commAIt 具有以下显著优势：

提高效率: 自动化生成 commit 信息，节省开发者的时间和精力。
保证质量: LLM 模型能够生成符合规范的 commit 信息，提高代码库的整体质量。
降低出错率: 减少手动编写 commit 信息的出错率，提高信息的准确性。
易于使用: 简单的命令行界面，易于集成到现有的 Git 工作流程中。

然而，commAIt 也存在一些局限性：

依赖 LLM 模型: 生成的 commit 信息质量取决于 LLM 模型的性能和训练数据。
需要一定的计算资源: 运行 LLM 模型需要一定的计算资源，特别是对于较大的项目。
可能存在偏差: LLM 模型可能存在偏差，导致生成的 commit 信息不准确或带有偏见。
需要人工审核: 虽然 commAIt 能够自动生成 commit 信息，但仍然需要人工审核，以确保信息的准确性和完整性。

commAIt 的未来发展方向

commAIt 作为一个基于 LLM 的自动化 commit 信息生成工具，具有广阔的发展前景。未来的发展方向包括：

编辑器集成: 将 commAIt 直接集成到流行的代码编辑器中，提供更流畅的体验。
更丰富的项目上下文: 除了 Git diff，还可以提供更丰富的项目上下文，例如文件结构、代码依赖关系等，以提高 LLM 模型生成 commit 信息的准确性。
更智能的 Diff 选择: 允许用户选择性地包含来自特定文件或代码块的 Diff，提高生成 commit 信息的针对性。
支持更多的 LLM 模型: 扩展支持更多的 LLM 模型，让用户可以根据自己的需求选择合适的模型。
提供更多的自定义选项: 提供更多的自定义选项，例如自定义 commit 信息格式、自定义提示语等，以满足不同的项目规范和团队需求。
增加测试覆盖率和鲁棒性: 确保工具在各种场景下的稳定性和可靠性。

结论

commAIt 是一款利用大模型 (LLM) 技术，旨在自动化 Git commit 信息生成，从而提升开发效率和代码可维护性的创新工具。它通过分析 Git diff，并结合用户可定制的提示语，生成高质量的 commit 信息，极大地减轻了开发人员的负担。

虽然 commAIt 仍处于发展阶段，但其在自动化和智能化软件开发方面的潜力不容小觑。随着 LLM 技术的不断发展和 commAIt 功能的不断完善，相信它将在未来的软件开发过程中发挥越来越重要的作用，帮助开发者编写更清晰、更规范的 commit 信息，打造更高质量的代码库。欢迎开发者积极尝试 commAIt，并提供反馈和贡献，共同推动其发展，让 LLM 技术更好地服务于软件开发。

利用大模型 (LLM) 自动化 Git Commit 信息：commAIt 助力高效开发