Meta近日发布了全新的轻量化Llama模型,通过量化技术显著提升了模型性能,使其更适合在移动设备上运行。这是Meta首次推出轻量化的Llama系列模型。
据悉,新模型在保持原有1B和3B模型质量和安全性的同时,推理速度提升2-4倍。与原始BF16格式相比,模型大小平均减少56%,内存使用量降低41%。测试显示,在Android OnePlus 12设备上,首次生成文本的延迟降低了4.2倍,后续文本生成速度提升2.5倍。
Meta采用了两种量化技术:一是结合LoRA适配器的量化感知训练(QLoRA),主要着眼于提升准确性;二是后训练量化方法SpinQuant,侧重于提升模型的可移植性。这些量化模型可通过PyTorch的ExecuTorch框架在Qualcomm和联发科搭载Arm CPU的芯片上运行。
考虑到移动设备的内存限制,新模型将上下文长度限制在8K以内。Meta表示,通过量化训练方法可以获得比后处理更好的准确率。目前,Meta正与合作伙伴共同开发,计划利用NPU进一步提升Llama 1B/3B模型的性能。
此次发布的量化模型已在llama.com和Hugging Face平台上线,开发者可以直接下载使用。这一举措将帮助更多开发者在资源受限的设备上部署Llama模型,为移动端AI应用开发提供新的可能。
|