据Proof News的调查,苹果、Nvidia、Anthropic和Salesforce等科技巨头涉嫌在未经创作者同意的情况下,使用数千个YouTube视频进行人工智能模型训练。
调查显示,这些公司使用了来自超过48,000个频道的173,536个YouTube视频的字幕,这些视频的字幕被整合在名为“YouTube字幕”的数据集中。该数据集不仅包括来自可汗学院、麻省理工学院和哈佛大学等教育频道的内容,还涵盖了《华尔街日报》、NPR和BBC等媒体的视频记录。研究还发现,深夜秀节目如《史蒂芬·科尔伯特深夜秀》和《吉米·金梅尔现场秀》,以及知名YouTube创作者如MrBeast和Marques Brownlee的视频也被用于AI训练。
“YouTube字幕”数据集是研究机构Eleuther AI编制的互联网数据集合“The Pile”的一部分。苹果利用The Pile为其开源模型OpenELM提供训练数据,该模型可能用于其Apple Intelligence项目。Anthropic和Salesforce也已确认在其AI系统中使用了The Pile。
YouTube首席执行官Neal Mohan在4月强调,YouTube的服务条款明确禁止此类数据使用。科技公司是否能无视YouTube的服务条款,主张“合理使用”,目前尚不明确,可能需要法庭裁决。
AI训练数据的法律问题依然复杂。最近,法院对代码AI工具Github Copilot的裁决指出,只要系统的输出与原始内容不完全相同,就不存在侵犯版权的行为。然而,出版商和作家对科技公司提起的多起集体诉讼仍在进行中,部分诉讼涉及将书籍用作训练数据。图像和音乐领域也有类似的案件,视频领域也出现了更多此类案件。
Proof News的发现揭示了科技和人工智能公司在未经创作者知情的情况下使用YouTube视频进行AI训练的行为。这些公司是否能以“合理使用”为由规避YouTube的服务条款,还有待法律的进一步明确。
|