大模型时代已经到来,无论是类似GPT的语言模型还是视觉Transformer,都在各行各业展现出强大的能力。然而,将这些动辄数百亿参数的大模型部署到手机、物联网传感器等边缘设备上,仍然是一项极具挑战的任务。边缘设备受限于内存、功耗和计算能力,无法直接运行庞大的模型。幸运的是,研究人员正在积极探索各种方法,让大模型瘦身,变得更加高效、智能,从而能在边缘AI芯片上流畅运行。本文将深入探讨这些关键技术,揭示如何通过量化、剪枝、知识蒸馏、模型重构以及软硬件协同设计等手段,实现边缘AI的普及。
1. 量化:从浮点到整数的“瘦身”魔法
量化是当前边缘AI领域应用最广泛的技术之一,它通过将模型中的16位或32位浮点数替换为8位、4位甚至更低精度的整数,大幅降低模型的存储空间和计算复杂度。例如,GPTQ、LLM.int8和OmniQuant等先进的量化器能够实现开箱即用的8位或混合精度压缩。
更进一步,研究人员提出了许多创新的量化策略。LSAQ(Layer-Specific Adaptive Quantization,层特异性自适应量化)根据语义重要性动态地为不同层分配不同的比特数。它使用token-wise Jaccard相似性来确定哪些层更重要,并分配更多的比特。实验表明,与均匀量化相比,LSAQ在零样本任务中取得了更好的性能。这意味着模型在没有经过特定任务训练的情况下,也能更好地适应新的场景。
QRazor则提出了一个完整的4位量化流程,对权重、激活值和KV缓存进行压缩。其核心是“Significant Data Razoring (SDR)”策略,该策略识别最重要的数据范围并丢弃其余数据。更令人激动的是,QRazor团队甚至专门构建了硬件来直接操作这种压缩格式。这种算法与硬件的协同设计,极大地提升了边缘AI芯片的效率。
量化的优势不仅体现在速度上。在Raspberry Pi和NVIDIA Jetson等边缘设备上,低比特模型可以在保持与原始全尺寸网络相似性能的同时,降低20%-50%的能耗。这对于电池供电的传感器设备来说,意义重大。
2. 剪枝:去除冗余,提升效率
剪枝技术旨在移除模型中不重要的部分。有时是单独的权重,有时是整个神经元、注意力头甚至层。这种“外科手术式”的精简能够有效地减小模型体积,提升运行效率。
LoRA-Pruner利用低秩近似来剪枝大型语言模型,同时保持下游任务的高性能。它不仅仅关注权重的幅度,而是结合灵敏度指标、稀疏模式和性能损失跟踪来决定需要移除的部分。实验结果显示,LoRA-Pruner能够将模型缩小60%,而精度几乎没有下降。更重要的是,精心设计的剪枝过程可以去除噪声,提高模型的泛化能力。
剪枝还为自适应推理开辟了道路。SkipNet 允许模型根据输入的不同,学习跳过不同的层。这对于算力有限的硬件上的实时应用非常有帮助。想象一下,在智能驾驶场景中,当路况简单时,模型可以跳过一些不必要的计算层,从而更快地做出反应。
3. 知识蒸馏:青出于蓝,而胜于蓝
知识蒸馏是一种让小型“学生”模型模仿大型“教师”模型的技术。学生模型不仅仅是复制教师模型的输出,而是学习其内部特征和软目标。通过这种方式,即使从头开始训练,小型模型也能比以往更好地进行泛化。
TinyStories是一个引人注目的案例。研究人员训练参数小于30M的LLM来编写连贯的短篇小说。他们使用课程学习,并对数据进行微调,以匹配模型的规模。结果令人惊讶:尽管比GPT-3小1000倍,这些模型仍然能够在设备上讲述一致且富有创意的故事。这预示着手机未来可能无需连接云端,就能创作短篇小说。
另一种方法是将知识蒸馏与量化相结合。SpQR联合执行结构化量化和知识蒸馏,在减少存储和计算的同时,几乎没有精度损失。它在多个Transformer模型中表现良好。
4. 模型重构:从“新”开始,打破常规
除了对现有模型进行优化,一些团队选择从头开始重新设计模型。Phi-2的设计就是一个很好的例子。研究人员使用了更干净、更小的数据和更简单的Transformer结构。这使得该模型的性能能够与大5倍的模型相媲美。这表明,有时,一种全新的视角胜过蛮力。
其他研究人员则探索模块化网络。MoEfication在少数层中添加了混合专家 (MoE) 块。大多数输入仅在推理时激活模型的一小部分。这节省了计算和内存,而不会影响性能。这种“按需激活”的机制使得模型能够根据输入的复杂度动态调整计算资源的使用。
5. 软硬件协同设计:打造专属的“边缘AI芯片”
边缘AI的部署还需要软硬件之间的紧密合作。一些研究着眼于在设备之间拆分模型。例如,SplitWise将模型划分为移动端和云端两部分。简单的任务在本地完成,而复杂的推理则发送到云端。这种混合模型节省了带宽和延迟。
QRazor的硬件设置允许量化的4位模型直接在仅支持简化格式的定制加速器上运行。这避免了在每次操作之前解压缩数据的成本,从而提高了端到端的推理效率。这种定制化的边缘AI芯片能够充分利用压缩模型的优势,实现更高的性能和更低的功耗。
6. 展望未来:边缘智能的无限可能
边缘AI的未来充满希望。手机、眼镜、无人机、机器人——它们都需要快速、私密且响应迅速的智能。当离线或需要实时决策时,云API无法提供帮助。这些研究指向了一条道路,即使像LLM这样的大型模型也可以在边缘上生存和发展。不是盲目地缩小规模,而是重新思考我们如何表示、压缩、拆分和训练模型。
过去一年已经证明,拥有大智慧的小模型不再是梦想。它们已经存在,并且每天都在变得更好。随着技术的不断进步,我们有理由相信,边缘AI芯片将驱动着更加智能、高效、便捷的未来。边缘AI芯片将渗透到我们生活的方方面面,为我们带来更加美好的体验。