研究人员今天宣布,他们已在将全功能人工智能(AI)模型压缩至个人电脑和智能手机中方面取得显著进展。Yandex LLC和NeuralMagic Inc.的AI专家与奥地利科学技术研究所和阿卜杜拉国王科技大学的学者合作,开发出两种新的压缩技术:语言模型的附加量化(AQLM)和PV-Tuning。这些技术能够将大型语言模型(LLM)的大小减少多达八倍,同时保持95%的响应质量。
AQLM采用“加法量化”技术,减少模型参数的位数至两到三位,而PV-Tuning则是一个与表示无关的框架,优化现有AI模型的微调策略。这两种技术不仅各自强大,还能结合使用,创建出功能几乎与全尺寸LLM相当的“超紧凑”模型。
这些新技术的开源发布,使得任何人都可以从arxiv.org下载相关学术论文,并在GitHub上获取技术实现。研究人员的目标是克服在消费硬件上部署LLM的挑战,这一挑战一直因模型大小和计算效率之间的权衡而难以克服。
例如,Google LLC的Gemini LLM系列虽然推出了轻量级版本Gemini Nano,但其性能无法与全功能版Gemini Ultra LLM相媲美。然而,通过应用AQLM和PV-Tuning技术,这种权衡变得不再必要。研究人员在论文中通过对Llama 2、Mistral和Mixtral等流行的开源LLM进行严格评估,证明了这些技术的有效性。这些模型在压缩后仍保持了95%的答案质量,同时运行速度提高了四倍。
此外,这些压缩后的LLM版本在资源消耗上也更为高效。例如,具有130亿个参数的Llama 2模型可以仅在单个图形处理单元上运行,而未压缩的版本则需要四个GPU。这不仅减少了硬件成本,还为在个人电脑和智能手机等消费设备上部署强大的LLM铺平了道路。
研究人员指出,这意味着在小型设备上部署全尺寸LLM的能力为新应用打开了大门,如在不连接互联网的情况下执行文本和图像生成、语音辅助、个性化推荐和实时翻译等。他们的论文将在7月21日至27日在奥地利维也纳举行的第41届国际机器学习会议上发表。AQLM和PV-Tuning技术均可在GitHub上下载,同时HuggingFace也提供了多个流行开源模型的已压缩版本。
|