苹果、Nvidia等公司涉嫌侵犯YouTube创作者权益，未经创作者同意擅自使用视频训练AI

小哪吒

据Proof News的调查，苹果、Nvidia、Anthropic和Salesforce等科技巨头涉嫌在未经创作者同意的情况下，使用数千个YouTube视频进行人工智能模型训练。

调查显示，这些公司使用了来自超过48,000个频道的173,536个YouTube视频的字幕，这些视频的字幕被整合在名为“YouTube字幕”的数据集中。该数据集不仅包括来自可汗学院、麻省理工学院和哈佛大学等教育频道的内容，还涵盖了《华尔街日报》、NPR和BBC等媒体的视频记录。研究还发现，深夜秀节目如《史蒂芬·科尔伯特深夜秀》和《吉米·金梅尔现场秀》，以及知名YouTube创作者如MrBeast和Marques Brownlee的视频也被用于AI训练。

“YouTube字幕”数据集是研究机构Eleuther AI编制的互联网数据集合“The Pile”的一部分。苹果利用The Pile为其开源模型OpenELM提供训练数据，该模型可能用于其Apple Intelligence项目。Anthropic和Salesforce也已确认在其AI系统中使用了The Pile。

YouTube首席执行官Neal Mohan在4月强调，YouTube的服务条款明确禁止此类数据使用。科技公司是否能无视YouTube的服务条款，主张“合理使用”，目前尚不明确，可能需要法庭裁决。

AI训练数据的法律问题依然复杂。最近，法院对代码AI工具Github Copilot的裁决指出，只要系统的输出与原始内容不完全相同，就不存在侵犯版权的行为。然而，出版商和作家对科技公司提起的多起集体诉讼仍在进行中，部分诉讼涉及将书籍用作训练数据。图像和音乐领域也有类似的案件，视频领域也出现了更多此类案件。

Proof News的发现揭示了科技和人工智能公司在未经创作者知情的情况下使用YouTube视频进行AI训练的行为。这些公司是否能以“合理使用”为由规避YouTube的服务条款，还有待法律的进一步明确。