LLM微调

1000万美元的教训:参数高效微调(PEFT)如何终结大模型“暴力”时代

彭博社斥资 1000 万美元打造金融大模型,却在 GPT-4 问世后黯然失色,这不仅是彭博社的失误,更映射出一种过时的思维模式:唯预算论、唯模型大小论。然而,当大公司们还在 GPU 军备竞赛中投入巨资时,一位爱沙尼亚的开发者却在厨房里用笔记本电脑,通过参数高效微调(PEFT),以 1400 美元的成本,实现了 90% 的性能。这并非天方夜谭,而是 PEFT 正在颠覆大模型领域的真实写照。它预示着,

险中求胜:金融大模型炼成记——30天挑战之两周逆袭之路

在金融大模型的训练竞赛中,时间就是生命。本文讲述了作者团队在30天内训练金融领域专属大模型的惊险历程。他们原本计划使用混合专家模型(MoE)架构,结合DeepSpeed优化器,打造一个在CDM、MOF和XBRL领域拥有专业知识的模型。然而,理想很丰满,现实很骨感,由于对DeepSpeed的复杂性理解不足、对专家网络存在误解以及受到硬件的限制,精心设计的方案彻底崩溃。面对困境,他们果断调整策略,最终

利用大语言模型打造个性化心理健康聊天机器人:从数据清洗到模型微调

心理健康问题日益受到重视,而利用大语言模型 (LLM) 打造个性化的心理健康聊天机器人,能够为用户提供随时随地的支持,具有巨大的潜力。本文将深入探讨如何通过数据清洗、零样本分类、类别平衡以及 OpenAI 微调等关键步骤,构建一个既能提供逻辑分析,又能提供情感支持的心理健康聊天机器人。 数据预处理:高质量的训练基石 要构建一个有效的心理健康聊天机器人,高质量的数据是至关重要的。本文参考的项目中,数

Ollama 与 Vertex AI 炼丹术:微调大型语言模型的那些坑

如果你也想使用 Ollama 友好的界面微调 大型语言模型 (LLM),并借助 Google Cloud Platform 上的 Vertex AI 实现模型的可扩展性,那么你并不孤单。将 Ollama 的便捷性和 GCP 的托管基础设施相结合,似乎是机器学习领域的理想搭配。 然而,一旦深入实际操作,问题就会浮出水面。尤其是在将 Ollama 这种本地优先的工具与 Vertex AI 这种云原生平