当前位置:»资讯 AI新闻 全球AI最前线

[行业动态] 麻省理工学院研究人员:更少的数据可以带来更好的语言模型

麻省理工学院的研究人员提出了一种新方法,证明使用更少的数据可以训练出更优秀的语言模型。
Perplexity-Based-Data-Pruning-Figure-1-770x615.png

研究概述该研究团队开发了一种技术,通过基于困惑度的数据修剪,筛选出训练数据集中最有价值的部分。这一方法首先利用小型人工智能模型为数据集分配困惑度值,该值反映了模型对示例的“惊讶程度”。高困惑度的示例被认为包含更多信息,对训练模型尤为关键。
实验结果研究人员采用一个参数量达1.25亿的小型模型,成功将训练数据量减少了30多倍。实验显示,使用精简后的数据训练的大型模型,在基准测试中的表现超越了使用完整数据集的模型。特别是在一次测试中,修剪后的数据使一个参数量达30亿的模型准确率提升了超过两个百分点。
定制化修剪方法研究发现,不同数据集对修剪方法的反应各异,这取决于数据的具体组成。因此,研究人员建议根据数据集的特性定制修剪策略。
研究意义麻省理工学院的这项研究被视为将数据缩减纳入人工智能训练标准流程的重要一步。它进一步证实了之前的观点:更多的数据并不总能带来更好的模型表现。


声明: 本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!
分享到:
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

豫ICP备2024052610号-1 ©AI闹海