当互联网显得太小时,就走捷径。看来这正是 OpenAI 一直在做的事情,为其闪亮的人工智能系统寻找数据。
《纽约时报》在一份新报告中表示,OpenAI 转录了超过一百万小时的 YouTube 视频来训练其最先进的大型语言模型GPT-4。
AI 实验室之所以决定这样做,是因为在 2021 年底,它在耗尽了网络上大多数高质量的英语文本后,迫切需要训练数据。随后,OpenAI 创建了一款名为 Whisper 的语音识别工具,可以转录 YouTube 视频中的音频,并开始工作。
据《纽约时报》报道,该公司非常清楚自己正在人工智能版权法的灰色地带内做事,但相信解决方案是合理使用的。据报道,OpenAI 总裁 Greg Brockman 亲自参与了这些视频的收集。
就在去年,在多家新闻媒体阻止人工智能公司获取其内容后,OpenAI宣布正在寻求与组织合作,生成用于训练人工智能模型的公共和私人数据集。
当然,人们可以对这些禁令的逻辑进行争论,但到目前为止,至少 YouTube 的服务条款明确禁止未经许可抓取其内容。
“您不得使用任何自动化方式(例如机器人、僵尸网络或抓取工具)访问服务,但以下情况除外:(a) 对于公共搜索引擎,根据 YouTube 的 robots.txt 文件; (b) 事先获得 YouTube 的书面许可;或 (c) 在适用法律允许的情况下,”条款中写道。
YouTube 首席执行官 Neal Mohan 也对 OpenAI 使用 YouTube 训练其 Sora 模型的可能性表示了类似的看法。他在接受彭博社采访时表示,这将“明显违反”该平台的政策。
当然,《纽约时报》称谷歌还从 YouTube 收集了文字记录,但该平台实际上属于这家科技巨头。然而,报告补充说,谷歌也在考虑扩大其在谷歌文档等工具上利用消费者数据的能力的可能性。
据《泰晤士报》报道,Meta 同时讨论了去年收购 Simon & Schuster 出版社,以采购长篇作品并在其上训练他们的人工智能模型。
简而言之,引领人工智能的竞赛确实已经变成了对数据的拼命搜寻。然而,森林每天都在变小——上周,《华尔街日报》 援引消息人士的话称,该行业对高质量文本数据的需求可能会在两年内供不应求,从而减缓人工智能的发展。
OpenAI领先的聊天机器人已经从包含多达 3 万亿个单词的数字文本池中学习,大约是牛津大学博德利图书馆 (Bodleian Library) 存储的单词数量的两倍,该图书馆自 1602 年以来一直收集手稿。
文章原文链接:https://www.anquanke.com/post/id/295397