Hugging Face 发布了 SmolLM小语言模型,一系列紧凑型语言模型,性能超越了微软、Meta 和阿里巴巴 Qwen 的同类产品。这些模型为个人设备带来了先进的 AI 功能,同时不牺牲性能或隐私。
SmolLM 系列包含三种规模:1.35亿、3.6亿和17亿个参数,适合不同的计算资源需求。尽管体积小巧,这些模型在常识推理和世界知识测试中表现卓越。最小的 SmolLM-135M 表现优于 Meta 的 MobileLM-125M,而旗舰模型 SmolLM-1.7B 在多个基准测试中击败了微软的 Phi-1.5、Meta 的 MobileLM-1.5B 和 Qwen2-1.5B。 Hugging Face 的开发过程完全开源,从数据管理到训练步骤,体现了公司对开源价值观和可重复研究的承诺。SmolLM 的成功归功于高质量的训练数据,基于 Cosmo-Corpus,包括 Cosmopedia v2、Python-Edu 和 FineWeb-Edu。
SmolLM 的发布可能会对人工智能的可访问性和隐私产生重大影响。这些模型可以在手机和笔记本电脑等个人设备上运行,消除了对云计算的需求,降低了成本和隐私问题。Hugging Face 的首席 ML 工程师 Loubna Ben Allal 强调,这些小型高性能模型让每个人都能使用人工智能,同时保证完全隐私,并降低环境足迹。
研究团队负责人 Leandro von Werra 指出,这些紧凑型模型为开发人员和最终用户打开了一个充满可能性的世界,无需昂贵的 GPU 或云基础设施即可实现自定义 AI 应用程序。随着 SmolLM 模型、数据集和训练代码的发布,全球 AI 社区和开发人员现在可以探索、改进和构建这种创新的语言模型方法。
|