在大模型技术日新月异的今天,如何让AI赋能小语种,服务更广泛的群体,成为一个重要的课题。Aiphoria与TBC Uzbekistan的合作,正是对这一课题的积极探索。他们共同克服了低资源语言——乌兹别克语的挑战,成功打造了适用于银行业务的专属LLM解决方案,为新兴市场提供了宝贵的经验借鉴。这篇文章将深入剖析这一合作的细节,解析其背后的技术策略和商业价值。
1. 低资源语言的困境与机遇
低资源语言是指数据资源相对匮乏的语言,这给基于大模型的自然语言处理带来了极大的挑战。传统的AI解决方案往往依赖于海量的数据进行训练,但在乌兹别克语等低资源语言环境中,数据的匮乏限制了模型的效果。 TBC Uzbekistan在乌兹别克斯坦乃至整个中亚地区占据着主导地位,它与Aiphoria合作,致力于开发乌兹别克语和俄语的专有语音技术,堪称整个中亚地区最具雄心的AI项目。
数据匮乏具体体现在以下几个方面:
- 训练数据不足: 缺乏大规模的乌兹别克语文本语料库,难以支撑LLM的训练。
- 专业领域数据稀缺: 银行业务涉及大量的专业术语和行业知识,乌兹别克语的银行领域数据更是凤毛麟角。
- 口语数据多样性: 乌兹别克斯坦存在多种方言和口音,语音识别和文本生成面临更大的挑战。
然而,挑战也蕴含着机遇。针对低资源语言的AI解决方案,一旦成功,将具有独特的竞争优势,能够更好地服务本地市场。
2. 开源LLM的微调策略
面对低资源语言的挑战,Aiphoria并没有选择从零开始训练大模型,而是采取了更经济高效的微调策略。这种策略的核心是基于现有的开源LLM,利用少量的目标语言数据进行fine-tuning,使其适应特定的任务和领域。正如文章中所说,从头开始训练一个模型需要巨大的数据集:所有必需语言的数十亿文本,包括维基百科。最重要的是,训练所需的计算资源至少可以说是巨大的。从商业角度来看,花费如此多的钱来完成这项任务是没有意义的。值得庆幸的是,总有一种更明智的方法。
选择开源LLM的原因在于:
- 成本效益: 从头开始训练大模型需要巨大的计算资源和资金投入,而微调则大大降低了成本。文章中提到,训练像GPT-3这样的模型被认为需要数百万美元。
- 技术可行性: 开源LLM已经具备一定的语言理解和生成能力,微调可以快速提升其在目标语言上的表现。
- 灵活性: 微调可以根据具体的任务需求进行定制化,例如针对银行业务的专业术语和对话风格进行优化。
在模型选择方面,Aiphoria最终选择了Google的Gemma-2–9B-IT(instruction-tuned版本),因为它在土耳其语和乌兹别克语等语言上的表现优于其他同类模型,例如Meta的LLaMa-3–8B和LLaMa-3.1–8B。这为后续的微调奠定了良好的基础。
3. 双语模型与本地化部署
乌兹别克斯坦是一个多语言国家,俄语也是重要的通用语言。因此,Aiphoria需要构建一个能够同时理解和生成乌兹别克语和俄语的双语LLM。
为了满足银行对数据安全和隐私的严格要求,该解决方案必须支持本地化部署。这意味着LLM需要在银行自身的服务器上运行,而不是依赖于云服务。这对于模型的大小和推理速度提出了更高的要求。正如文章中所说,他们的目标是部署在本地,因为涉及到银行业务的数据安全问题。 他们目标模型还应该:
- 足够小,可以在客户的经济高效的硬件上良好运行,而无需花费数百万美元升级基础设施
- 足够快,可以在电话呼叫期间处理语音模式下的快速响应
- 足够强大,可以处理双语文本生成的复杂性
所有这些都使得他们的目标模型大约有7-90亿个参数。虽然对于什么是小型模型,什么大型模型没有普遍的定义,但小型模型通常低于10亿个参数,而像GPT-4这样非常大的模型可以达到超过1万亿个参数。这使得他们的目标模型相对较小。
因此,Aiphoria在选择开源LLM时,不仅要考虑其性能,还要兼顾其大小和速度,最终选择了参数量在70-90亿之间的模型。
4. 多阶段训练策略与数据增强
为了充分利用有限的数据资源,Aiphoria采用了多阶段的训练策略。他们使用Gemma-2–9B-IT(指令调整版本)开始,并实施了两阶段训练过程。第一阶段侧重于使用混合的乌兹别克语和俄语内容进行完成训练,从而建立语言流畅性。第二阶段引入了专门针对特定领域银行场景的指令微调。
第一阶段为补全训练,目标是让模型学习乌兹别克语和俄语的语言结构和表达方式。由于乌兹别克语数据匮乏,Aiphoria采取了多种数据增强手段:
- 公开数据集: 从Hugging Face等平台获取公开的乌兹别克语数据集。
- 机器翻译: 将现有的英语和俄语数据集翻译成乌兹别克语。
- 领域数据: 与TBC Uzbekistan合作,获取匿名化的银行客户对话数据。
第二阶段为指令微调,目标是让模型学会根据指令完成特定的任务,例如回答问题、生成文本、执行命令等。Aiphoria构建了包含通用指令和领域特定指令的综合指令-响应数据集。
通用指令主要翻译自现有的资源,例如“根据陈述生成问题”、“写一个短篇故事”、“改写这个句子使其更正式”等。
领域特定指令则由Aiphoria和TBC Uzbekistan的银行专家共同创建,并根据解决方案未来的热门用例(如支持场景)调整这些指令,这意味着将使用 RAG(检索增强生成),并且应对其进行优化。正如文章中提到的,翻译指令被证明出乎意料地困难。许多标准LLM训练指令包含特定于语言的元素,这些元素在翻译后可能会失去意义。例如,诸如消除歧义之类的指导性任务在翻译后会失去意义,因为同音异义会因翻译而消失。
为了避免这种情况,他们没有仅仅依靠自动翻译,而是聘请了乌兹别克语母语人士来审查他们翻译的指令。 这种人工监督表明,大约70%的翻译指令保持了其在乌兹别克语中的原始含义,并且语法和句法也正确,这证明了自动翻译的潜在想法是可行的。 对于有问题的30%,他们的语言专家帮助重新制定指令,以保留其训练价值,同时尽可能使其在文化和语言上适当。 但是,并非所有内容都可以在不失去正确含义的情况下进行修复,因此必须放弃一些指令,这本身也是人类专家的宝贵贡献。
5. 参数高效微调与知识迁移
在微调过程中,Aiphoria采用了参数高效微调(Parameter-Efficient Fine-Tuning,PEFT)技术,例如QLoRA,以减少计算资源的需求。QLoRA可以在保持性能的同时,显著降低训练所需的GPU内存。
参数高效微调的核心思想是只训练模型的一小部分参数,而固定大部分参数不变。这样可以避免过度拟合,并提高模型的泛化能力。
此外,Aiphoria还注重知识迁移。他们利用开源LLM在其他语言和领域上学到的知识,通过微调将其迁移到乌兹别克语银行业务领域。
6. 评估指标与实际测试
为了评估模型的性能,Aiphoria采用了多种评估指标,包括指令理解能力、响应生成质量、事实准确性、语法正确性、乌兹别克语的流畅度、上下文处理能力和安全合规性。
他们使用行业标准的英语数据集(MMLU、Truthful-QA、Halu-Eval),并将其翻译成乌兹别克语。为了提高评估效率,他们采用了随机分层抽样的方法,创建了一个包含约2000个样本的评估语料库。
更重要的是,Aiphoria将训练好的LLM部署到Telegram上,作为银行客户的聊天机器人进行实际测试。Telegram因其异步 API、对集成各种模型和场景的支持、跨 Web、桌面、iOS/Android 平台以及最重要的是在乌兹别克斯坦的广泛普及,成为满足他们需求的明确选择。
这种实际测试能够快速收集用户反馈,及时发现并修复模型存在的问题。例如,早期版本的LLM有时会混淆数字,通过实际测试,Aiphoria及时发现了这个问题并进行了修复。
7. 商业价值与未来展望
Aiphoria与TBC Uzbekistan的合作不仅在技术上取得了成功,也带来了显著的商业价值。
通过Telegram机器人,TBC Uzbekistan开辟了新的销售渠道。在一个月的运营后,与人工渠道相比,转化为银行产品申请(如贷款)的转化率高出三分之一,且用户参与度翻倍。
更进一步,TBC Uzbekistan计划将LLM应用于电话营销,以提高效率并降低成本。
Aiphoria与TBC Uzbekistan的成功案例表明,即使在低资源语言环境下,也可以通过巧妙的技术策略和合作模式,打造出具有商业价值的大模型应用。它还提供了一个适用于新兴市场中企业的有价值的见解:真正的市场领导地位需要技术主权。通过投资于根据当地语言和文化环境量身定制的专有AI解决方案,而不是依赖于通用的全球解决方案,TBC建立了无法轻易复制的竞争优势。致力于构建内部AI专业知识,同时战略性地利用外部合作伙伴关系,展示了公司如何在保持独立性的同时加速创新。
未来,随着大模型技术的不断发展和数据资源的日益丰富,相信会有更多的低资源语言能够搭上AI的快车,为当地经济和社会发展做出贡献。