《纽约时报》指责OpenAI、谷歌和Meta公司违规使用数据训练人工智能

小哪吒

继三个月前对OpenAI提起版权侵犯诉讼后，纽约时报公司在周六发布的一份报告中指出，OpenAI、谷歌和Meta Platforms可能在训练其人工智能模型时存在不当行为。

报告首先聚焦于OpenAI，声称该公司利用名为Whisper的语音识别工具，转录YouTube视频中的音频内容，以此生成新的对话文本。报告进一步指出，OpenAI的员工曾就转录YouTube视频是否违反平台规则进行讨论，这一行为显然引起了关注。

OpenAI随后确认，确实转录了超过100万小时的YouTube视频内容，该过程得到了公司总裁Greg Brockman的支持。这些转录资料被用于GPT-4模型的训练。

报告中提到：“人工智能已成为追求技术进步所需数字数据的一种手段。”并补充说，“为了获取这些数据，科技公司如OpenAI、谷歌和Meta等不惜采取捷径、忽视公司政策，甚至讨论如何违反法律。”

报道还指出，Meta公司曾考虑收购出版商Simon & Schuster LLC，以获取长篇作品来辅助其人工智能的训练，并探讨了“从互联网上收集受版权保护的数据，即便这意味着面临诉讼的风险”以及“与出版商、艺术家、音乐家和新闻行业协商许可证过于耗时”。

谷歌也被指控转录YouTube视频以收集文本数据供其人工智能模型使用，《纽约时报》报道称这一行为“可能”侵犯了视频的版权。同时，谷歌还被指控修改条款，以便抓取公开的谷歌文档、谷歌地图上的餐馆评论以及其他在线资料来训练其人工智能。

《纽约时报》的报道似乎试图描绘出一幅大规模版权侵犯的图景，但并未直接指控。谷歌并未窃取转录内容，而是“可能”触犯了版权法；Meta讨论了抓取公共数据的合法性问题；OpenAI则讨论了转录YouTube内容是否违反了某些规则。

这些都是开发人工智能的公司在与他人和谐相处和遵守法律时必须进行的合理讨论。在人工智能的合理使用和数据方面，法律仍然非常模糊，《纽约时报》对此心知肚明，否则它就不会起诉OpenAI。

值得注意的是，合理使用原则是人工智能公司工作的核心，也是OpenAI在《纽约时报》诉讼中的主要辩护依据。人工智能开发者认为，使用公开内容训练人工智能模型属于合理使用范畴。

文章的另一个显著之处在于，《纽约时报》用了17个段落来披露其正在就报告中的一些指控起诉OpenAI，这使得整篇文章，无论有意或无意，都像是对该公司所认为的对手的攻击。

[八卦] 《纽约时报》指责OpenAI、谷歌和Meta公司违规使用数据训练人工智能