在与 Stagwell 董事长马克·佩恩的直播对话中,埃隆·马斯克表达了对人工智能训练数据现状的担忧。他指出,目前用于训练人工智能模型的真实世界数据已所剩无几,人类在人工智能训练方面积累的全部知识“基本上已经耗尽”,这一状况大致发生在去年。
马斯克的观点与前 OpenAI 首席科学家伊利亚·苏茨克弗在 NeurIPS 机器学习会议上提到的“数据峰值”不谋而合。苏茨克弗预测,训练数据的短缺将迫使行业改变现有的模型开发方式。马斯克认为,合成数据,即由人工智能模型自身生成的数据,将成为未来的发展方向。他强调,“补充(现实世界数据)的唯一方法是使用合成数据,即人工智能创建(训练数据)”,并指出合成数据能让人工智能“自我评分,并经历自我学习的过程”。
科技巨头如微软、Meta、OpenAI 和 Anthropic 等已开始利用合成数据训练其旗舰 AI 模型。Gartner 估计,2024 年用于 AI 和分析项目的数据中有 60% 是合成生成的。例如,微软的 Phi-4 和谷歌的 Gemma 模型都采用了合成数据与真实数据相结合的训练方式。Anthropic 使用合成数据开发了其高性能系统 Claude 3.5 Sonnet,而 Meta 则用人工智能生成的数据对其最新的 Llama 系列模型进行了微调。
合成数据的使用不仅能够解决数据短缺问题,还能降低成本。人工智能初创公司 Writer 的 Palmyra X 004 模型几乎完全依赖合成源开发,其开发成本仅为 70 万美元,远低于同等规模的 OpenAI 模型,后者的开发成本估计为 460 万美元。
然而,合成数据也存在潜在风险。一些研究表明,合成数据可能导致模型输出变得缺乏创意且更加偏颇,从而严重影响其功能。如果训练模型的数据存在偏见和局限性,模型生成的合成数据也将受到类似影响。
|
声明:
本站所有内容来源于用户上传,用来分享交流。如有资料或者图片不小心侵权,请发邮件(41835170@qq.com)告知!