在大型语言模型 (LLM) 的快速发展浪潮中,如何在众多选择中找到最适合自身业务需求的模型,并将其成功部署到实际应用中,是每一位 AI 从业者都需要面对的挑战。本文将以作者从 Llama3 到 Qwen3 的选型实践为例,深入探讨 LLM 的选型策略、微调经验、以及最终部署的关键技术栈,希望能为读者提供一些参考。
1. 选型:从Llama3到Qwen3的考量
曾经,通过微调的方式来定制 LLM 是主流做法,但随着技术的发展,提示词 工程的兴起以及 LLM API 成本的降低,直接使用预训练模型并通过精心设计的 提示词 满足需求变得更加高效。 然而,在特定场景下,例如对预测精度、性能要求极高的实时交易分析,微调 依然是不可或缺的手段。
最初,作者选择了 Google 开源的 Gemma3 模型,主要看中了其运行阶段的内存消耗优势以及优秀的多语言能力。然而,阿里巴巴在 4 月 29 日发布了新的开源模型 Qwen3,凭借其卓越的性能和同样出色的多语种能力,在实际训练和评估中,表现超出了预期,优于 Gemma3。
为什么最终选择了 Qwen3?原因在于:
- 性能:交易分析需要极快的响应速度,Qwen3 能够在保证一定精度的前提下,提供更低的延迟。
- 精度:在交易分析的场景下,预测结果的准确性至关重要。Qwen3 在作者的特定数据集上,表现出了更高的预测精度。
- 多语种能力:考虑到业务的全球化扩展,模型需要能够支持多种语言。Qwen3 同样具备强大的多语种处理能力。
- 自适应 Thinking Mode: Qwen3 的一个特色功能是能够根据问题的复杂程度,自行判断是否需要进入 “thinking mode”。 对于简单的预测任务,可以快速给出结果,从而避免了不必要的算力消耗。这对于资源受限的环境来说,是一个非常实用的特性。
例如,在作者的应用场景中,需要根据用户的历史交易数据、商品信息、时间等因素,实时预测用户是否会购买某个商品。通过对比 Gemma3 和 Qwen3 在相同数据集上的表现,发现 Qwen3 在预测准确率上提升了 3% 左右,而响应时间却与 Gemma3 相当。
2. Qwen3 的独特优势:Thinking Mode 与资源优化
Qwen3 最吸引人的特性之一是其智能的 “thinking mode”。 传统的 LLM 通常会对所有问题都进行同样的深度处理,即使是简单的问题,也会消耗大量的算力。而 Qwen3 则可以根据问题的复杂程度,自动调整处理方式。
对于简单的问题,Qwen3 可以直接给出答案,而无需进入复杂的推理过程。这极大地提高了效率,降低了资源消耗。对于复杂的问题,Qwen3 则会进入 “thinking mode”,进行更深入的分析和推理,从而保证了结果的准确性。
这种自适应的处理方式,使得 Qwen3 非常适合在资源有限的环境下部署。例如,在边缘计算设备上,算力资源非常宝贵,如果 LLM 能够根据问题的复杂程度,自动调整资源消耗,就可以在有限的资源下,提供更好的服务。
作者还分享了将 Qwen3 用于 Youtube 视频实时翻译的经验,并可以通过 提示词 来优化翻译结果,避免出现过多的中国用语。
3. 微调实战:关键技术栈与经验总结
尽管直接使用预训练模型已经可以满足很多需求,但在某些特定场景下,微调 仍然是不可或缺的环节。作者分享了其用于交易分析模型的关键技术栈:
- 模型托管: Hugging Face
- 模型运行与训练框架: Transformers
- 主要编程语言: Python
- Web API 框架: FastAPI
- 交易日志管理: Kibana
- 封装部署: Docker
值得注意的是,作者的训练脚本、测试脚本以及测试程序都没有依赖第三方的工具,只使用了 Transformers 框架。
在最初训练 Llama3 模型时,作者曾尝试使用一些集成好的工具,但发现这些工具的参数过多,难以理解,而且定制性较差。因此,作者决定从零开始搭建自己的训练框架,并在脚本中加入满足自己需求的定制设计,从而实现了更高的灵活性和可维护性。
当然,使用 Transformers 框架也存在一些缺点,例如其版本迭代速度非常快,为了使用最新的模型,往往需要更新到最新的版本,这可能会导致一些 API 的变动。但作者认为,这些调整成本并不高,只需要稍作修改即可。
4. LLM应用开发的软件工程思考
大型语言模型 的发展速度非常快,各大厂商不断推出新的模型,这使得模型的迭代速度远远跟不上技术的发展速度。尽管新的模型可能更加优秀,但在实际应用中,需要对新模型进行充分的测试,以确保其稳定性和可靠性。
因此,在实际应用中,需要遵循软件工程的规范,进行充分的测试和验证,包括单元测试、集成测试、压力测试等。只有经过充分的测试,才能确保 LLM 的稳定性和可靠性。
作者强调,无论使用的工具或技术有多么新颖,软件工程必要的流程仍然需要执行。只是执行流程的方式变得更加智能。
5. RAG 技术:Qwen3 Embedding 在企业内部的应用前景
在撰写本文时,Qwen3 Embedding 已经发布。作者认为,Qwen3 Embedding 非常适合企业内部的 RAG (Retrieval-Augmented Generation) 项目。
RAG 是一种将信息检索与文本生成相结合的技术,可以有效地利用外部知识来增强 LLM 的能力。通过将 Qwen3 Embedding 与企业内部的知识库相结合,可以构建一个智能的问答系统,能够回答各种关于企业内部知识的问题。
例如,可以将企业内部的文档、报告、邮件等数据导入到知识库中,然后使用 Qwen3 Embedding 对这些数据进行编码,生成向量表示。当用户提出问题时,首先使用 Qwen3 Embedding 对问题进行编码,然后在知识库中查找与问题向量最相似的向量,从而找到相关的文档。最后,将找到的文档与问题一起输入到 LLM 中,生成答案。
这种方法可以有效地解决 LLM 的知识盲区问题,使其能够回答各种关于企业内部知识的问题。Qwen3 Embedding 的发布,无疑为 RAG 技术在企业内部的应用带来了新的机遇。
6. 展望:Gemini 的开发经验
作者还预告了下一篇文章将会分享与 Gemini 相关的开发经验。这意味着作者将继续探索 LLM 的前沿技术,并将其应用到实际场景中。
7. 总结:拥抱开源,精益求精
本文以作者从 Llama3 到 Qwen3 的选型实践为例,深入探讨了 LLM 的选型策略、微调经验、以及最终部署的关键技术栈。通过对 Qwen3 的独特优势、Thinking Mode、微调实战、以及 RAG 技术在企业内部的应用前景的分析,希望能够为读者提供一些参考。在 大型语言模型 的快速发展浪潮中,选择合适的模型,并将其成功部署到实际应用中,需要不断的学习和探索。作者的经验表明,拥抱开源,精益求精,是应对这一挑战的关键。