谷歌DeepMind的研究人员开发了一种名为JEST的方法,显著提升了训练图像和文本处理AI模型的效率。
多模态AI模型通过增强相关图像和文本对的一致性,同时降低不相关对的一致性来学习链接图像和文本。传统训练中,示例选择是随机的,或基于每次迭代中批次内个体的相关性。
DeepMind的研究人员认识到,一批数据的质量不仅取决于单个数据点,还依赖于它们的组合。基于这一观点,他们开发了一种算法,该算法能够根据集体可学习性从更大的“超级批次”中挑选数据子集。
JEST通过使用两个AI模型来进行数据选择:一个是正在训练的模型,另一个是已经训练好的参考模型。对于那些对训练模型来说较难但对参考模型来说容易的数据,JEST认为这些数据尤其有价值。
通过这种方法,研究团队能够将某些任务的训练时间缩短13倍,同时与传统方法相比,减少了10倍的计算需求。
研究人员指出,选择一个小型但高质量的数据集进行预训练的参考模型至关重要,因为其质量决定了潜在的改进上限。通过增加参考数据集的规模,同时保持高质量,可以进一步改善结果。
为了降低评估“超级批次”时增加的计算负担,科学家们还引入了JEST的一个变体,称为Flexi-JEST。它使用简化模型以较低分辨率评估数据,同时并行进行全分辨率和降低分辨率的训练。
在8项标准任务上,经过40亿个训练样本后,Flexi-JEST模型的平均性能优于目前最佳模型SigLIP在400亿个样本后的性能,相当于节省了90%的计算资源。
研究人员认为,这些发现表明,从小型、精心策划的数据集中学习可以有效地筛选大量非结构化数据,这一过程被称为“数据质量引导”。这为开发需要更少计算能力和训练数据的更高效AI模型提供了可能。
|