本帖最后由 哪吒 于 2024-2-22 14:07 编辑
在推出最新版Gemini 型号不到一周后,谷歌今天(2月21号)宣布推出 Gemma,这是一个新的轻量级开放式型号系列。从Gemma 2B 和 Gemma 7B开始,这些新模型“受到 Gemini 的启发”,可用于商业和研究用途。
谷歌没有向提供有关这些模型如何与 Meta 和 Mistral 的类似模型相比的详细论文,只是指出它们是“最先进的”。该公司确实指出,这些是仅密集解码器的模型,与其Gemini 模型(以及早期的 PaLM 模型)使用的架构相同。 要开始使用 Gemma,开发人员可以访问即用型 Colab 和 Kaggle 笔记本,以及与Hugging Face、MaxText 和 Nvidia 的 NeMo 的集成。一旦经过预训练和调整,这些模型就可以在任何地方运行。
虽然谷歌强调这些是开放模型,但值得注意的是它们不是开源的。事实上,在今天宣布之前的新闻发布会上,谷歌的 Janine Banks 强调了该公司对开源的承诺,但也指出谷歌对于如何提及 Gemma 模型非常有意。
“[开放模式]现在在行业中已经相当普遍,”班克斯说。“它通常指的是开放权重模型,开发人员和研究人员可以广泛地定制和微调模型,但同时,使用条款 - 例如重新分配以及那些变体的所有权已开发 - 根据模型自身的特定使用条款而有所不同。因此,我们看到了传统意义上的开源模型之间的一些差异,因此我们认为将 Gemma 模型称为开放模型是最有意义的。”这意味着开发人员可以使用该模型进行推理并随意对其进行微调,谷歌团队认为,尽管这些模型大小非常适合许多用例。
谷歌 DeepMind 产品管理总监 Tris Warkentin 表示:“去年的生成质量显着提高。” “以前需要超大型模型才能完成的事情现在可以通过最先进的小型模型来实现。这开启了开发人工智能应用程序的全新方式,我们对此感到非常兴奋,包括能够使用 RTX GPU 在本地开发人员台式机或笔记本电脑上运行推理并进行调整,或者在使用 Cloud TPU 的 GCP 中的单个主机上运行推理和调整”。
谷歌竞争对手在该领域的开放模型也是如此,因此我们必须看看 Gemma 模型在现实场景中的表现如何。除了新模型之外,谷歌还发布了一个新的负责任的生成式人工智能工具包,以提供“使用Gemma 创建更安全的人工智能应用程序的指导和基本工具”以及调试工具。
|