英特尔发布 AI 芯片Gaudi 3 ：与英伟达 H100比训练时间加快50%、效率提高 40%

小哪吒

在4月9日举办的英特尔Vision大会上，英特尔公司隆重推出了英特尔® Gaudi® 3 AI加速器。相较于其前代产品，这款新型加速器在BF16的AI计算能力上提升了4倍，内存带宽增加了1.5倍，网络带宽也实现了2倍的增长，从而在大规模系统横向扩展方面实现了重大突破。这一进步显著提升了在大型语言模型（LLM）和多模态模型上进行人工智能训练和推理的性能与效率。

英特尔® Gaudi® 2 AI加速器作为市场上唯一经过MLPerf基准测试验证的LLM替代方案，已经为客户提供了基于开放社区软件和行业标准的以太网网络选择，以便更灵活地扩展其系统。贾斯汀·霍塔德（Justin Hotard），英特尔执行副总裁兼数据中心和人工智能事业部总经理，强调了当前产品在不断发展的人工智能市场中所面临的巨大挑战。

他表示：“我们的客户和更广泛的市场反馈都强调了对增加选择的强烈需求。企业在权衡可用性、可扩展性、性能、成本和能源效率等多个因素时，英特尔Gaudi 3作为GenAI的替代方案，以其令人信服的性价比、系统可扩展性和价值实现时间优势的组合而脱颖而出。”

在金融、制造、医疗保健等关键行业，企业正迅速寻求扩大人工智能的可及性，并将生成人工智能（GenAI）项目从实验阶段过渡到全面实施。为了管理这一转变、推动创新并实现收入增长目标，企业需要开放、经济高效且节能的解决方案和产品，以满足投资回报（ROI）和运营效率的需求。

英特尔Gaudi 3加速器正是为了满足这些要求而设计。它通过基于社区的开放软件和开放行业标准的以太网提供多功能性，帮助企业灵活扩展其人工智能系统和应用程序。

newsroom-intel-gaudi-3-5.jpg.rendition.intel.web.1648.927.jpg

英特尔Gaudi 3加速器的定制架构专为高效的大规模AI计算而设计，采用5纳米（nm）工艺制造，与前代产品相比取得了显著进步。它旨在允许并行激活所有引擎——包括矩阵乘法引擎（MME）、张量处理器核心（TPC）和网络接口卡（NIC），以实现快速、高效的深度学习计算和所需的加速。其主要特点包括：

AI专用计算引擎：英特尔Gaudi 3加速器专为高性能、高效率的GenAI计算而构建。每个加速器都配备了独特的异构计算引擎，由64个AI定制和可编程的TPC和8个MME组成。每个英特尔Gaudi 3 MME都能执行高达64,000个并行运算，从而实现高度的计算效率，特别擅长处理深度学习算法中的基础计算类型——复杂的矩阵运算。这种独特的设计加快了并行AI操作的速度和效率，并支持多种数据类型，包括FP8和BF16。
LLM容量要求的内存提升：128GB HBMe2内存容量、3.7TB内存带宽和96MB板载静态随机存取内存（SRAM）为处理大型GenAI数据集提供了充足的内存。基于较少的Intel Gaudi 3，这在服务大型语言和多模式模型时尤为有用，从而提高了工作负载性能和数据中心的成本效率。
企业GenAI的高效系统扩展：每个Intel Gaudi 3加速器中都集成了24个200Gb以太网端口，提供灵活且开放标准的网络。它们能够实现高效扩展，以支持大型计算集群，并消除了专有网络结构的供应商锁定。英特尔Gaudi 3加速器旨在高效地从单个节点纵向扩展至数千个节点，以满足GenAI模型的广泛要求。
提高开发人员生产力的开放行业软件：英特尔Gaudi软件集成了PyTorch框架，并提供了优化的Hugging Face基于社区的模型——这是当今GenAI开发人员最常用的AI框架之一。这使得GenAI开发人员能够在高抽象级别上进行操作，以实现易用性和生产力，以及跨硬件类型的模型移植。
Gaudi 3 PCIe：Gaudi 3外围组件互连快速（PCIe）附加卡是该产品线的新成员。这种新的外形尺寸专为实现高效率而设计，非常适合微调、推理和检索增强生成（RAG）等工作负载。它采用全高外形，功率为600瓦，内存容量为128GB，带宽为每秒3.7TB。

英特尔Gaudi 3加速器预计将为领先的GenAI模型的训练和推理任务带来显著的性能提升。具体而言，与Nvidia H100相比，Intel Gaudi 3加速器预计能够在以下方面实现改进：

Llama2 7B和13B参数以及GPT-3 175B参数模型的训练时间加快50%。
Llama 7B和70B参数以及Falcon 180B参数模型的推理吞吐量提高50%，推理功效提高40%，在处理较长的输入和输出序列时具有更大的推理性能优势。
与Nvidia H200相比，Llama 7B和70B参数以及Falcon 180B参数模型的推理速度提高了30%。

关于市场采用和可用性，英特尔Gaudi 3加速器将于2024年第二季度以行业标准的通用基板和开放加速器模块（OAM）的形式向原始设备制造商（OEM）提供。市场上著名的OEM采用者包括Dell Technologies、Hewlett Packard Enterprise、Lenovo和Supermicro。英特尔Gaudi 3加速器预计将于2024年第三季度全面上市，而英特尔Gaudi 3 PCIe附加卡预计将于2024年第四季度上市。

此外，英特尔Gaudi 3加速器还将支持用于训练和推理的经济高效的云LLM基础设施，为包括NAVER在内的组织提供性价比优势和更多选择。

开发人员现在就可以开始访问基于英特尔Gaudi 2的开发者云实例，以便学习、原型设计、测试和运行应用程序和工作负载。

展望未来，英特尔Gaudi 3加速器的发展势头将为Falcon Shores奠定基础。Falcon Shores是英特尔面向人工智能和高性能计算（HPC）的下一代图形处理单元（GPU）。Falcon Shores将整合英特尔Gaudi和英特尔® Xe知识产权（IP），并基于英特尔® oneAPI规范构建单一GPU编程接口。

[行业动态] 英特尔发布 AI 芯片Gaudi 3 ：与英伟达 H100比训练时间加快50%、效率提高 40%

相关帖子

英特尔赢麻了：获得 85 亿美元政府补助和 110 亿美元贷款

芯片制造商Hailo 以12亿估值 1.2 亿美元融资，继续与 Nvidia 抗衡

英特尔打造全球最大的神经拟态系统 Hala Point 以实现可持续人工智能