当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 英特尔发布 AI 芯片Gaudi 3 :与英伟达 H100比训练时间加快50%、效率提高 40%

WX20240410-234114@2x.png


在4月9日举办的英特尔Vision大会上,英特尔公司隆重推出了英特尔® Gaudi® 3 AI加速器。相较于其前代产品,这款新型加速器在BF16的AI计算能力上提升了4倍,内存带宽增加了1.5倍,网络带宽也实现了2倍的增长,从而在大规模系统横向扩展方面实现了重大突破。这一进步显著提升了在大型语言模型(LLM)和多模态模型上进行人工智能训练和推理的性能与效率。

英特尔® Gaudi® 2 AI加速器作为市场上唯一经过MLPerf基准测试验证的LLM替代方案,已经为客户提供了基于开放社区软件和行业标准的以太网网络选择,以便更灵活地扩展其系统。贾斯汀·霍塔德(Justin Hotard),英特尔执行副总裁兼数据中心和人工智能事业部总经理,强调了当前产品在不断发展的人工智能市场中所面临的巨大挑战。
他表示:“我们的客户和更广泛的市场反馈都强调了对增加选择的强烈需求。企业在权衡可用性、可扩展性、性能、成本和能源效率等多个因素时,英特尔Gaudi 3作为GenAI的替代方案,以其令人信服的性价比、系统可扩展性和价值实现时间优势的组合而脱颖而出。”

在金融、制造、医疗保健等关键行业,企业正迅速寻求扩大人工智能的可及性,并将生成人工智能(GenAI)项目从实验阶段过渡到全面实施。为了管理这一转变、推动创新并实现收入增长目标,企业需要开放、经济高效且节能的解决方案和产品,以满足投资回报(ROI)和运营效率的需求。

英特尔Gaudi 3加速器正是为了满足这些要求而设计。它通过基于社区的开放软件和开放行业标准的以太网提供多功能性,帮助企业灵活扩展其人工智能系统和应用程序。

newsroom-intel-gaudi-3-5.jpg.rendition.intel.web.1648.927.jpg


英特尔Gaudi 3加速器的定制架构专为高效的大规模AI计算而设计,采用5纳米(nm)工艺制造,与前代产品相比取得了显著进步。它旨在允许并行激活所有引擎——包括矩阵乘法引擎(MME)、张量处理器核心(TPC)和网络接口卡(NIC),以实现快速、高效的深度学习计算和所需的加速。其主要特点包括:
  • AI专用计算引擎:英特尔Gaudi 3加速器专为高性能、高效率的GenAI计算而构建。每个加速器都配备了独特的异构计算引擎,由64个AI定制和可编程的TPC和8个MME组成。每个英特尔Gaudi 3 MME都能执行高达64,000个并行运算,从而实现高度的计算效率,特别擅长处理深度学习算法中的基础计算类型——复杂的矩阵运算。这种独特的设计加快了并行AI操作的速度和效率,并支持多种数据类型,包括FP8和BF16。
  • LLM容量要求的内存提升:128GB HBMe2内存容量、3.7TB内存带宽和96MB板载静态随机存取内存(SRAM)为处理大型GenAI数据集提供了充足的内存。基于较少的Intel Gaudi 3,这在服务大型语言和多模式模型时尤为有用,从而提高了工作负载性能和数据中心的成本效率。
  • 企业GenAI的高效系统扩展:每个Intel Gaudi 3加速器中都集成了24个200Gb以太网端口,提供灵活且开放标准的网络。它们能够实现高效扩展,以支持大型计算集群,并消除了专有网络结构的供应商锁定。英特尔Gaudi 3加速器旨在高效地从单个节点纵向扩展至数千个节点,以满足GenAI模型的广泛要求。
  • 提高开发人员生产力的开放行业软件:英特尔Gaudi软件集成了PyTorch框架,并提供了优化的Hugging Face基于社区的模型——这是当今GenAI开发人员最常用的AI框架之一。这使得GenAI开发人员能够在高抽象级别上进行操作,以实现易用性和生产力,以及跨硬件类型的模型移植。
  • Gaudi 3 PCIe:Gaudi 3外围组件互连快速(PCIe)附加卡是该产品线的新成员。这种新的外形尺寸专为实现高效率而设计,非常适合微调、推理和检索增强生成(RAG)等工作负载。它采用全高外形,功率为600瓦,内存容量为128GB,带宽为每秒3.7TB。


英特尔Gaudi 3加速器预计将为领先的GenAI模型的训练和推理任务带来显著的性能提升。具体而言,与Nvidia H100相比,Intel Gaudi 3加速器预计能够在以下方面实现改进:
  • Llama2 7B和13B参数以及GPT-3 175B参数模型的训练时间加快50%。
  • Llama 7B和70B参数以及Falcon 180B参数模型的推理吞吐量提高50%,推理功效提高40%,在处理较长的输入和输出序列时具有更大的推理性能优势。
  • 与Nvidia H200相比,Llama 7B和70B参数以及Falcon 180B参数模型的推理速度提高了30%。

关于市场采用和可用性,英特尔Gaudi 3加速器将于2024年第二季度以行业标准的通用基板和开放加速器模块(OAM)的形式向原始设备制造商(OEM)提供。市场上著名的OEM采用者包括Dell Technologies、Hewlett Packard Enterprise、Lenovo和Supermicro。英特尔Gaudi 3加速器预计将于2024年第三季度全面上市,而英特尔Gaudi 3 PCIe附加卡预计将于2024年第四季度上市。

此外,英特尔Gaudi 3加速器还将支持用于训练和推理的经济高效的云LLM基础设施,为包括NAVER在内的组织提供性价比优势和更多选择。

开发人员现在就可以开始访问基于英特尔Gaudi 2的开发者云实例,以便学习、原型设计、测试和运行应用程序和工作负载。

展望未来,英特尔Gaudi 3加速器的发展势头将为Falcon Shores奠定基础。Falcon Shores是英特尔面向人工智能和高性能计算(HPC)的下一代图形处理单元(GPU)。Falcon Shores将整合英特尔Gaudi和英特尔® Xe知识产权(IP),并基于英特尔® oneAPI规范构建单一GPU编程接口。

声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海