OpenAI和谷歌再起纷争：AI的尽头是内容 _AI

日前，纽约时报的一篇报道称，人工智能公司 AI target=_blank class=infotextkey>OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper 。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频，也就是将 YouTube 视频中的音频内容转录文字，然后再拿去训练 GPT-4 。这个项目得到OpenAI 总裁 Greg Brockman的支持，甚至于Greg Brockman还亲自参与了视频的收集工作。

文章插图
虽然OpenAI 认为这是对数据的合理利用，但谷歌显然并不这么认为，并公开称：谷歌会采取技术和法律措施来防止此类未经授权的使用。
在人工智能领域，数据是构建智能模型的基石。没有高质量的数据，AI的发展就会受到严重限制。怎么合法获取高质量数据？可能有望在OpenAI和谷歌的纷争中给业界指明一条更为明确的道路。
AI公司为了提升模型的性能，往往需要大量的数据作为训练材料。然而，这些数据往往受到版权法的保护，未经授权的使用可能会触犯法律。这不仅对AI公司构成挑战，也对内容创作者的权利保护提出了问题。
【OpenAI和谷歌再起纷争：AI的尽头是内容】

文章插图
目前OpenAI的训练数据获取大多是来自以下几方面：
一是互联网内容。OpenAI从互联网上抓取大量的网页内容，包括文本、图片、视频等多种形式的数据。这些数据不仅用于训练自然语言处理模型，如GPT系列，还可能用于图像识别、多模态模型等其他类型的AI模型。
二是图书资料。OpenAI还利用大量的图书资料作为训练数据。这些书籍内容涵盖了各种领域和主题，有助于模型更好地理解长篇、结构化和正式英语。
三是学术论文。为了提升模型在科学和技术领域的理解能力， OpenAI还收集了大量的学术论文作为训练数据。
四是社交媒体数据。随着社交媒体的发展，OpenAI也开始与各大社交媒体合作，探索利用社交媒体上的公共信息来训练模型。这些数据包括用户发布的文本、图片、视频等，有助于模型更好地理解人类的语言和行为。
五是特定领域数据。针对特定任务或领域，OpenAI还可能收集特定领域的数据进行训练。例如，对于医疗领域的模型，可能需要收集医学文献、病例报告等数据；对于金融领域的模型，可能需要收集市场数据、财务报告等。
这些内容不仅OpenAI在用，其他无数AI公司也在用这些内容进行人工智能的训练，要保证OpenAI的领先性，就必须为其AI模型加入更加丰富的高质量训练数据。这是OpenAI转录YouTube视频进行训练的关键所在。

文章插图
2020年初，约翰霍普金斯大学的理论物理学家（现Anthropic首席科学官）Jared Kaplan发布了一篇论文，明确表示训练大语言模型用的数据越多，表现就会越好。自那以后， “规模就是一切”成为了人工智能行业的信条。
研究机构Epoch直白地表示，现在科技公司使用数据的速度已经超过数据生产的速度，这些公司最快会在2026年就耗尽互联网上的高质量数据。
高质量数据已经成为AI公司发展壮大的“石油”，在竞争的压力下，让它们对石油的获取变得更为无所顾忌。对YouTube视频的转录存在法律争议， OpenAI是知道的，但对数据的贪婪还是让他们义无反顾的坚信这是对数据的合理使用。
AI公司要发展，获取训练数据要合法合规。一方面，可以通过与内容提供商建立合作关系，获取合法授权的数据。另一方面，AI公司也可以考虑自行生成合成数据，以满足训练需求。这不仅能够避免法律风险，还能够确保数据的多样性和质量。
AI的发展不仅仅是技术问题，更是社会问题。AI技术的应用需要在尊重版权、保护隐私的前提下进行。只有这样，AI技术才能够得到健康、可持续的发展。
AI的尽头是内容，但内容的获取必须建立在合法合规的基础之上。AI公司、内容创作者、法律机构等各方需要共同努力，找到平衡技术发展与法律伦理的解决方案，以确保AI技术能够造福人类社会，而不是成为争议的焦点。