日前,纽约时报的一篇报道称,人工智能公司 AI target=_blank class=infotextkey>OpenAI为收集高质量训练数据而开发了一个语音转录模型Whisper 。该模型主要用于转录 OpenAI 获取的超过 100 万小时的 YouTube 视频,也就是将 YouTube 视频中的音频内容转录文字,然后再拿去训练 GPT-4 。这个项目得到OpenAI 总裁 Greg Brockman的支持 , 甚至于Greg Brockman还亲自参与了视频的收集工作 。
文章插图
虽然OpenAI 认为这是对数据的合理利用 , 但谷歌显然并不这么认为,并公开称:谷歌会采取技术和法律措施来防止此类未经授权的使用 。
在人工智能领域,数据是构建智能模型的基石 。没有高质量的数据,AI的发展就会受到严重限制 。怎么合法获取高质量数据?可能有望在OpenAI和谷歌的纷争中给业界指明一条更为明确的道路 。
AI公司为了提升模型的性能,往往需要大量的数据作为训练材料 。然而,这些数据往往受到版权法的保护,未经授权的使用可能会触犯法律 。这不仅对AI公司构成挑战 , 也对内容创作者的权利保护提出了问题 。
【OpenAI和谷歌再起纷争:AI的尽头是内容】
文章插图
目前OpenAI的训练数据获取大多是来自以下几方面:
一是互联网内容 。OpenAI从互联网上抓取大量的网页内容,包括文本、图片、视频等多种形式的数据 。这些数据不仅用于训练自然语言处理模型,如GPT系列,还可能用于图像识别、多模态模型等其他类型的AI模型 。
二是图书资料 。OpenAI还利用大量的图书资料作为训练数据 。这些书籍内容涵盖了各种领域和主题,有助于模型更好地理解长篇、结构化和正式英语 。
三是学术论文 。为了提升模型在科学和技术领域的理解能力 , OpenAI还收集了大量的学术论文作为训练数据 。
四是社交媒体数据 。随着社交媒体的发展,OpenAI也开始与各大社交媒体合作,探索利用社交媒体上的公共信息来训练模型 。这些数据包括用户发布的文本、图片、视频等,有助于模型更好地理解人类的语言和行为 。
五是特定领域数据 。针对特定任务或领域,OpenAI还可能收集特定领域的数据进行训练 。例如,对于医疗领域的模型,可能需要收集医学文献、病例报告等数据;对于金融领域的模型,可能需要收集市场数据、财务报告等 。
这些内容不仅OpenAI在用,其他无数AI公司也在用这些内容进行人工智能的训练,要保证OpenAI的领先性,就必须为其AI模型加入更加丰富的高质量训练数据 。这是OpenAI转录YouTube视频进行训练的关键所在 。
文章插图
2020年初,约翰霍普金斯大学的理论物理学家(现Anthropic首席科学官)Jared Kaplan发布了一篇论文,明确表示训练大语言模型用的数据越多,表现就会越好 。自那以后 , “规模就是一切”成为了人工智能行业的信条 。
研究机构Epoch直白地表示,现在科技公司使用数据的速度已经超过数据生产的速度,这些公司最快会在2026年就耗尽互联网上的高质量数据 。
高质量数据已经成为AI公司发展壮大的“石油”,在竞争的压力下,让它们对石油的获取变得更为无所顾忌 。对YouTube视频的转录存在法律争议 , OpenAI是知道的,但对数据的贪婪还是让他们义无反顾的坚信这是对数据的合理使用 。
AI公司要发展,获取训练数据要合法合规 。一方面,可以通过与内容提供商建立合作关系,获取合法授权的数据 。另一方面,AI公司也可以考虑自行生成合成数据,以满足训练需求 。这不仅能够避免法律风险 , 还能够确保数据的多样性和质量 。
AI的发展不仅仅是技术问题,更是社会问题 。AI技术的应用需要在尊重版权、保护隐私的前提下进行 。只有这样,AI技术才能够得到健康、可持续的发展 。
AI的尽头是内容,但内容的获取必须建立在合法合规的基础之上 。AI公司、内容创作者、法律机构等各方需要共同努力,找到平衡技术发展与法律伦理的解决方案,以确保AI技术能够造福人类社会,而不是成为争议的焦点 。
推荐阅读
- AI产业的灰色暗面:OpenAI、谷歌、META如何搞训练语料
- 海外推广干货分享:外贸网站在谷歌SEO排名上不去首页的16个原因
- 和“数字人”交朋友,当心隐私被出卖......
- 机械设备B2B工厂外贸网站如何做Google谷歌SEO优化关键字排名?
- Win10/Win11和 macOS用户反馈:谷歌云服务“捆绑”系统 DNS 设置
- 谷歌或改变商业模式,人工智能搜索考虑收费
- 营销号们,让马斯克和罗翔成了毒鸡汤批发部。
- 梦见和异性“发生关系”,意味着什么?男女都要懂
- “辅警”和“协警”仅差一字,待遇却有大不同,有一个是临时工
- 暴雪、微软和网易共同官宣:暴雪旗下游戏今年夏季重返中国大陆市场