拥抱开源，精益求精：从Llama3到Qwen3，大型语言模型选型与微调实战

在大型语言模型 (LLM) 的快速发展浪潮中，如何在众多选择中找到最适合自身业务需求的模型，并将其成功部署到实际应用中，是每一位 AI 从业者都需要面对的挑战。本文将以作者从 Llama3 到 Qwen3 的选型实践为例，深入探讨 LLM 的选型策略、微调经验、以及最终部署的关键技术栈，希望能为读者提供一些参考。

1. 选型：从Llama3到Qwen3的考量

曾经，通过微调的方式来定制 LLM 是主流做法，但随着技术的发展，提示词 工程的兴起以及 LLM API 成本的降低，直接使用预训练模型并通过精心设计的 提示词 满足需求变得更加高效。然而，在特定场景下，例如对预测精度、性能要求极高的实时交易分析，微调依然是不可或缺的手段。

最初，作者选择了 Google 开源的 Gemma3 模型，主要看中了其运行阶段的内存消耗优势以及优秀的多语言能力。然而，阿里巴巴在 4 月 29 日发布了新的开源模型 Qwen3，凭借其卓越的性能和同样出色的多语种能力，在实际训练和评估中，表现超出了预期，优于 Gemma3。

为什么最终选择了 Qwen3？原因在于：

性能：交易分析需要极快的响应速度，Qwen3 能够在保证一定精度的前提下，提供更低的延迟。
精度：在交易分析的场景下，预测结果的准确性至关重要。Qwen3 在作者的特定数据集上，表现出了更高的预测精度。
多语种能力：考虑到业务的全球化扩展，模型需要能够支持多种语言。Qwen3 同样具备强大的多语种处理能力。
自适应 Thinking Mode: Qwen3 的一个特色功能是能够根据问题的复杂程度，自行判断是否需要进入 “thinking mode”。对于简单的预测任务，可以快速给出结果，从而避免了不必要的算力消耗。这对于资源受限的环境来说，是一个非常实用的特性。

例如，在作者的应用场景中，需要根据用户的历史交易数据、商品信息、时间等因素，实时预测用户是否会购买某个商品。通过对比 Gemma3 和 Qwen3 在相同数据集上的表现，发现 Qwen3 在预测准确率上提升了 3% 左右，而响应时间却与 Gemma3 相当。

2. Qwen3 的独特优势：Thinking Mode 与资源优化

Qwen3 最吸引人的特性之一是其智能的 “thinking mode”。传统的 LLM 通常会对所有问题都进行同样的深度处理，即使是简单的问题，也会消耗大量的算力。而 Qwen3 则可以根据问题的复杂程度，自动调整处理方式。

对于简单的问题，Qwen3 可以直接给出答案，而无需进入复杂的推理过程。这极大地提高了效率，降低了资源消耗。对于复杂的问题，Qwen3 则会进入 “thinking mode”，进行更深入的分析和推理，从而保证了结果的准确性。

这种自适应的处理方式，使得 Qwen3 非常适合在资源有限的环境下部署。例如，在边缘计算设备上，算力资源非常宝贵，如果 LLM 能够根据问题的复杂程度，自动调整资源消耗，就可以在有限的资源下，提供更好的服务。

作者还分享了将 Qwen3 用于 Youtube 视频实时翻译的经验，并可以通过 提示词 来优化翻译结果，避免出现过多的中国用语。

3. 微调实战：关键技术栈与经验总结

尽管直接使用预训练模型已经可以满足很多需求，但在某些特定场景下，微调仍然是不可或缺的环节。作者分享了其用于交易分析模型的关键技术栈：

模型托管: Hugging Face
模型运行与训练框架: Transformers
主要编程语言: Python
Web API 框架: FastAPI
交易日志管理: Kibana
封装部署: Docker

值得注意的是，作者的训练脚本、测试脚本以及测试程序都没有依赖第三方的工具，只使用了 Transformers 框架。

在最初训练 Llama3 模型时，作者曾尝试使用一些集成好的工具，但发现这些工具的参数过多，难以理解，而且定制性较差。因此，作者决定从零开始搭建自己的训练框架，并在脚本中加入满足自己需求的定制设计，从而实现了更高的灵活性和可维护性。

当然，使用 Transformers 框架也存在一些缺点，例如其版本迭代速度非常快，为了使用最新的模型，往往需要更新到最新的版本，这可能会导致一些 API 的变动。但作者认为，这些调整成本并不高，只需要稍作修改即可。

4. LLM应用开发的软件工程思考

大型语言模型 的发展速度非常快，各大厂商不断推出新的模型，这使得模型的迭代速度远远跟不上技术的发展速度。尽管新的模型可能更加优秀，但在实际应用中，需要对新模型进行充分的测试，以确保其稳定性和可靠性。

因此，在实际应用中，需要遵循软件工程的规范，进行充分的测试和验证，包括单元测试、集成测试、压力测试等。只有经过充分的测试，才能确保 LLM 的稳定性和可靠性。

作者强调，无论使用的工具或技术有多么新颖，软件工程必要的流程仍然需要执行。只是执行流程的方式变得更加智能。

5. RAG 技术：Qwen3 Embedding 在企业内部的应用前景

在撰写本文时，Qwen3 Embedding 已经发布。作者认为，Qwen3 Embedding 非常适合企业内部的 RAG (Retrieval-Augmented Generation) 项目。

RAG 是一种将信息检索与文本生成相结合的技术，可以有效地利用外部知识来增强 LLM 的能力。通过将 Qwen3 Embedding 与企业内部的知识库相结合，可以构建一个智能的问答系统，能够回答各种关于企业内部知识的问题。

例如，可以将企业内部的文档、报告、邮件等数据导入到知识库中，然后使用 Qwen3 Embedding 对这些数据进行编码，生成向量表示。当用户提出问题时，首先使用 Qwen3 Embedding 对问题进行编码，然后在知识库中查找与问题向量最相似的向量，从而找到相关的文档。最后，将找到的文档与问题一起输入到 LLM 中，生成答案。

这种方法可以有效地解决 LLM 的知识盲区问题，使其能够回答各种关于企业内部知识的问题。Qwen3 Embedding 的发布，无疑为 RAG 技术在企业内部的应用带来了新的机遇。

6. 展望：Gemini 的开发经验

作者还预告了下一篇文章将会分享与 Gemini 相关的开发经验。这意味着作者将继续探索 LLM 的前沿技术，并将其应用到实际场景中。

7. 总结：拥抱开源，精益求精

本文以作者从 Llama3 到 Qwen3 的选型实践为例，深入探讨了 LLM 的选型策略、微调经验、以及最终部署的关键技术栈。通过对 Qwen3 的独特优势、Thinking Mode、微调实战、以及 RAG 技术在企业内部的应用前景的分析，希望能够为读者提供一些参考。在 大型语言模型 的快速发展浪潮中，选择合适的模型，并将其成功部署到实际应用中，需要不断的学习和探索。作者的经验表明，拥抱开源，精益求精，是应对这一挑战的关键。

拥抱开源，精益求精：从Llama3到Qwen3，大型语言模型选型与微调实战