斯坦福大学发布的人工智能指数报告显示,训练大型语言模型 (LLM) 的成本越来越高,而大型语言模型是 Open AI、微软和其他公司创建的聊天机器人的基础。
该报告还谈到了许多其他趋势,并表示未来数据的缺乏可能会阻碍人工智能的发展。
OpenAI CEO Sam Altman 去年透露,ChatGPT-4 的训练成本超过 1 亿。研究人员指出,虽然人工智能公司很少透露训练模型所涉及的费用,但人们普遍认为这些成本已达到数百万美元,并且还在不断上升。
他们阐述了这一趋势,并提供了自己对LLM培训成本的估计。例如,Transformer 模型引入了几乎所有现代 LLM 的基础架构,训练成本仅为 900 美元左右。
2019 年发布的 RoBERTa Large 的训练成本约为 16 万美元,而 OpenAI 发布的 GPT-4 和谷歌发布的 Gemini Ultra 估计分别约为 7800 万美元和 1.91 亿美元。
这些估计表明,目前正在开发的训练模型的价格可能高达数十亿美元。
LLM的创建者面临的另一个挑战是缺乏用于培训他们的数据。在过去的几年里,人工智能聊天机器人取得了重大进展,很大程度上要归功于LLM接受了越来越多的数据训练,例如书籍、文章等,这些数据充当了燃料。
然而,对人工智能模型的数据依赖日益增加,引发了人们的担忧,即未来几代计算机科学家将耗尽数据来进一步扩展和改进他们的系统。
Epoch 于 2022 年发表的一项研究估计,计算机科学家可能会在 2024 年耗尽高质量语言数据的库存,在二十年内耗尽低质量语言数据,并在 2030 年代末至 2040 年代中期耗尽图像数据。
一种解决方法是使用LLM创建的所谓合成数据来培训LLM。斯坦福大学的研究人员表示,这不仅是潜在数据枯竭的解决方案,而且还可以在自然发生的数据稀疏的情况下生成数据。
然而,去年发表的两项研究表明,合成数据的训练模型存在局限性。这种方法的一个问题是,在某些时候,接受合成数据训练的LLM“失去了记住真正的底层数据分布的能力,并开始产生狭窄范围的输出。”
一项实验表明,随着每一代人接受额外的合成数据训练,LLM产生的输出越来越有限。这同样适用于文本数据和图像。
文章原文链接:https://www.anquanke.com/post/id/295846