Google Deepmind开发了名为JEST的方法:AI训练速度提高了13倍，大幅降低了计算需求

小哪吒

谷歌DeepMind的研究人员开发了一种名为JEST的方法，显著提升了训练图像和文本处理AI模型的效率。

多模态AI模型通过增强相关图像和文本对的一致性，同时降低不相关对的一致性来学习链接图像和文本。传统训练中，示例选择是随机的，或基于每次迭代中批次内个体的相关性。

DeepMind的研究人员认识到，一批数据的质量不仅取决于单个数据点，还依赖于它们的组合。基于这一观点，他们开发了一种算法，该算法能够根据集体可学习性从更大的“超级批次”中挑选数据子集。

JEST通过使用两个AI模型来进行数据选择：一个是正在训练的模型，另一个是已经训练好的参考模型。对于那些对训练模型来说较难但对参考模型来说容易的数据，JEST认为这些数据尤其有价值。

通过这种方法，研究团队能够将某些任务的训练时间缩短13倍，同时与传统方法相比，减少了10倍的计算需求。

研究人员指出，选择一个小型但高质量的数据集进行预训练的参考模型至关重要，因为其质量决定了潜在的改进上限。通过增加参考数据集的规模，同时保持高质量，可以进一步改善结果。

为了降低评估“超级批次”时增加的计算负担，科学家们还引入了JEST的一个变体，称为Flexi-JEST。它使用简化模型以较低分辨率评估数据，同时并行进行全分辨率和降低分辨率的训练。

在8项标准任务上，经过40亿个训练样本后，Flexi-JEST模型的平均性能优于目前最佳模型SigLIP在400亿个样本后的性能，相当于节省了90%的计算资源。

研究人员认为，这些发现表明，从小型、精心策划的数据集中学习可以有效地筛选大量非结构化数据，这一过程被称为“数据质量引导”。这为开发需要更少计算能力和训练数据的更高效AI模型提供了可能。