当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] Apple 推出 OpenELM:专为在设备上运行的开源 AI 小型模型

WX20240425-091041@2x.png


苹果公司通过发布 OpenELM 加入了生成式 AI 的竞争,这是一系列新的开源大型语言模型(LLM),专为在单一设备上运行而设计,无需连接云服务器。
OpenELM 在 AI 代码社区 Hugging Face 上发布,包含八个小型模型,旨在高效执行文本生成任务,覆盖从 2.7 亿到 30 亿参数的不同大小。OpenELM 模型包括预训练和指令调整两种类型,后者通过特定请求优化输出的相关性。苹果以“示例代码许可证”发布模型权重,允许商业使用和修改,但要求保留通知和免责声明。公司提醒,模型在无安全保证下提供,可能产生不准确或有害输出。

OpenELM 是苹果一系列开源 AI 模型中的最新作品,反映了其在该领域的持续努力。尽管苹果以封闭著称,但已通过网上发布模型和论文,悄然推进其 AI 研究,如此前发布的多模式语言模型 Ferret。

这些模型基于来自 Reddit、维基百科、arXiv.org 等的 1.8 万亿个代币的公共数据集预训练而成,适合在商用笔记本电脑甚至部分智能手机上运行。苹果在配备高端 CPU、GPU 和 RAM 的工作站上进行了基准测试,并指出所有模型使用分层缩放策略优化计算效率和准确性。
Screen-Shot-2024-04-24-at-11.09.57-AM.webp
OpenELM 使用苹果的 CoreNet 库进行预训练,预训练数据集包括 RefinedWeb、去重 PILE、RedPajama 子集和 Dolma v1.6 子集。性能测试显示,特别是 4.5 亿参数的指令调整变体表现良好。11 亿参数的 OpenELM 变体在性能上超越了参数更多的 OLMo 模型,同时预训练令牌需求减半。

Screen-Shot-2024-04-24-at-10.54.54-AM.webp
在 ARC-C 基准测试中,OpenELM-3B 变体展现了 42.24% 的准确率,而在 MMLU 和 HellaSwag 上的得分分别为 26.76% 和 73.28%。用户反馈表明,OpenELM 是一个可靠但一致性高的模型,其响应创造性有限,不太可能涉及不当内容。


尽管微软的 Phi-3 Mini 在参数和上下文长度上领先,OpenELM 仍展现出强劲的竞争力。随着社区对苹果开源 AI 模型的兴奋,其未来的改进和应用前景值得期待。




声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海