美国高性能AI计算领域的先驱企业Cerebras Systems日前推出了名为"Cerebras Inference"的AI推理解决方案,宣称这是目前世界上最快的AI推理系统。该系统在性能和价格方面都实现了显著突破,引发业界广泛关注。
根据Cerebras公布的数据,Cerebras Inference在处理Llama 3.1 8B模型时,每秒可生成1,800个标记(token),而对于更大的Llama 3.1 70B模型,每秒也能生成450个标记。这一性能比基于NVIDIA GPU的超大规模云解决方案快20倍。更引人注目的是,Cerebras Inference的价格仅为GPU解决方案的五分之一,为AI工作负载提供了100倍的性价比。
Cerebras Inference采用按需付费的定价模式,对于Llama 3.1 8B模型,每百万标记的价格仅为10美分;对于Llama 3.1 70B模型,每百万标记的价格为60美分。这种定价策略大大降低了企业使用高性能AI推理服务的成本门槛。
Cerebras的创新不仅体现在性能和价格上,还在于其独特的技术方案。该系统采用了晶圆级芯片设计,相当于将数千个传统GPU芯片集成在一块芯片上。这种设计使得Cerebras能够在保持16位精度的同时,实现超高速推理,无需在精度和性能之间做出妥协。
AI领域的多位专家对Cerebras Inference给予了高度评价。DeepLearning.AI创始人吴恩达博士表示,Cerebras的高速推理能力对于需要重复提示大语言模型的工作流程非常有帮助。GlaxoSmithKline的AI/ML高级副总裁Kim Branson则强调,速度和规模的提升将改变一切。
Cerebras还推出了三个不同层级的服务:免费层、开发者层和企业层,以满足不同用户的需求。开发者可以通过简单的API轻松访问Cerebras Inference服务,该API与OpenAI Chat Completions API完全兼容,只需几行代码即可完成迁移。
业内分析人士指出,随着AI应用的不断普及,推理速度的提升将为实时、高容量的AI应用开辟新的可能性。Cerebras Inference的推出,不仅展示了公司在AI硬件领域的技术实力,也有望推动整个AI行业向更高效、更经济的方向发展。
然而,挑战依然存在。尽管Cerebras在技术上取得了突破,但要在市场上与NVIDIA等established的巨头竞争,仍需时日。接下来,业界将密切关注Cerebras Inference的实际应用效果,以及市场对这一创新产品的接受程度。
|