研究人员开发出将全功能 AI 模型压缩到 PC 和智能手机中的新技术

小哪吒

研究人员今天宣布，他们已在将全功能人工智能（AI）模型压缩至个人电脑和智能手机中方面取得显著进展。Yandex LLC和NeuralMagic Inc.的AI专家与奥地利科学技术研究所和阿卜杜拉国王科技大学的学者合作，开发出两种新的压缩技术：语言模型的附加量化（AQLM）和PV-Tuning。这些技术能够将大型语言模型（LLM）的大小减少多达八倍，同时保持95%的响应质量。

AQLM采用“加法量化”技术，减少模型参数的位数至两到三位，而PV-Tuning则是一个与表示无关的框架，优化现有AI模型的微调策略。这两种技术不仅各自强大，还能结合使用，创建出功能几乎与全尺寸LLM相当的“超紧凑”模型。

这些新技术的开源发布，使得任何人都可以从arxiv.org下载相关学术论文，并在GitHub上获取技术实现。研究人员的目标是克服在消费硬件上部署LLM的挑战，这一挑战一直因模型大小和计算效率之间的权衡而难以克服。

例如，Google LLC的Gemini LLM系列虽然推出了轻量级版本Gemini Nano，但其性能无法与全功能版Gemini Ultra LLM相媲美。然而，通过应用AQLM和PV-Tuning技术，这种权衡变得不再必要。研究人员在论文中通过对Llama 2、Mistral和Mixtral等流行的开源LLM进行严格评估，证明了这些技术的有效性。这些模型在压缩后仍保持了95%的答案质量，同时运行速度提高了四倍。

此外，这些压缩后的LLM版本在资源消耗上也更为高效。例如，具有130亿个参数的Llama 2模型可以仅在单个图形处理单元上运行，而未压缩的版本则需要四个GPU。这不仅减少了硬件成本，还为在个人电脑和智能手机等消费设备上部署强大的LLM铺平了道路。

研究人员指出，这意味着在小型设备上部署全尺寸LLM的能力为新应用打开了大门，如在不连接互联网的情况下执行文本和图像生成、语音辅助、个性化推荐和实时翻译等。他们的论文将在7月21日至27日在奥地利维也纳举行的第41届国际机器学习会议上发表。AQLM和PV-Tuning技术均可在GitHub上下载，同时HuggingFace也提供了多个流行开源模型的已压缩版本。

[行业动态] 研究人员开发出将全功能 AI 模型压缩到 PC 和智能手机中的新技术

浏览过的版块