Apple 推出 OpenELM：专为在设备上运行的开源 AI 小型模型

小哪吒

苹果公司通过发布 OpenELM 加入了生成式 AI 的竞争，这是一系列新的开源大型语言模型（LLM），专为在单一设备上运行而设计，无需连接云服务器。
OpenELM 在 AI 代码社区 Hugging Face 上发布，包含八个小型模型，旨在高效执行文本生成任务，覆盖从 2.7 亿到 30 亿参数的不同大小。OpenELM 模型包括预训练和指令调整两种类型，后者通过特定请求优化输出的相关性。苹果以“示例代码许可证”发布模型权重，允许商业使用和修改，但要求保留通知和免责声明。公司提醒，模型在无安全保证下提供，可能产生不准确或有害输出。

OpenELM 是苹果一系列开源 AI 模型中的最新作品，反映了其在该领域的持续努力。尽管苹果以封闭著称，但已通过网上发布模型和论文，悄然推进其 AI 研究，如此前发布的多模式语言模型 Ferret。

这些模型基于来自 Reddit、维基百科、arXiv.org 等的 1.8 万亿个代币的公共数据集预训练而成，适合在商用笔记本电脑甚至部分智能手机上运行。苹果在配备高端 CPU、GPU 和 RAM 的工作站上进行了基准测试，并指出所有模型使用分层缩放策略优化计算效率和准确性。

Screen-Shot-2024-04-24-at-11.09.57-AM.webp

OpenELM 使用苹果的 CoreNet 库进行预训练，预训练数据集包括 RefinedWeb、去重 PILE、RedPajama 子集和 Dolma v1.6 子集。性能测试显示，特别是 4.5 亿参数的指令调整变体表现良好。11 亿参数的 OpenELM 变体在性能上超越了参数更多的 OLMo 模型，同时预训练令牌需求减半。

Screen-Shot-2024-04-24-at-10.54.54-AM.webp

在 ARC-C 基准测试中，OpenELM-3B 变体展现了 42.24% 的准确率，而在 MMLU 和 HellaSwag 上的得分分别为 26.76% 和 73.28%。用户反馈表明，OpenELM 是一个可靠但一致性高的模型，其响应创造性有限，不太可能涉及不当内容。

尽管微软的 Phi-3 Mini 在参数和上下文长度上领先，OpenELM 仍展现出强劲的竞争力。随着社区对苹果开源 AI 模型的兴奋，其未来的改进和应用前景值得期待。

[行业动态] Apple 推出 OpenELM：专为在设备上运行的开源 AI 小型模型

相关帖子

苹果发布会Apple Intelligence的大模型原理介绍