9月25日,Meta在其年度Connect大会上宣布推出Llama 3.2系列模型,标志着开源人工智能领域的又一重大进展。这次发布包括支持视觉任务的中等规模模型(11B和90B参数)以及专为边缘设备设计的轻量级文本模型(1B和3B参数)。
Llama 3.2的视觉模型首次为Llama家族带来了图像理解能力。11B和90B模型不仅可以处理文档级别的图表理解,还能进行图像描述和视觉定位等任务。例如,用户可以询问去年哪个月小型企业销售最好,模型能够分析相关图表并给出准确答案。这些模型在图像识别和视觉理解方面的表现已经可以与领先的闭源模型如Claude 3 Haiku和GPT4o-mini相媲美。 轻量级的1B和3B模型则专注于文本处理,支持多语言生成和工具调用。这些模型可以在移动设备上本地运行,为开发者提供了构建个性化、保护隐私的AI应用的可能性。例如,它们可以在设备上直接总结最近的消息,提取待办事项,甚至通过工具调用功能直接发送日历邀请。 Meta强调,Llama 3.2延续了开放、可修改和高效的特点。为了支持开发者社区,Meta还首次发布了官方Llama Stack分发版,简化了开发者在不同环境下使用Llama模型的流程。
此外,Meta还推出了新版本的Llama Guard安全系统,包括支持视觉输入的Llama Guard 3 11B Vision和针对边缘设备优化的Llama Guard 3 1B。这些安全措施旨在帮助开发者构建负责任的AI系统。
Meta首席执行官马克·扎克伯格表示:"自18个月前首次发布以来,Llama已经取得了惊人的进展。我们相信,开放性推动创新,是正确的前进道路。"
Llama 3.2模型现已在llama.com和Hugging Face上开放下载,并可在包括AWS、Google Cloud、Microsoft Azure等在内的多个合作伙伴平台上立即使用。此次发布无疑将为AI开发者社区带来新的机遇,推动人工智能技术在更广泛的领域中的应用和创新。
|