数据中心|数据中心“吃掉”三峡大坝和葛洲坝:科技巨头也得拉闸限电?( 三 )


2012年6月 , 谷歌利用16000块芯片 , 让AI观看数百万段YouTube视频来识别出猫 , 即便如此仍错误百出 , 还不如人类眼睛的一瞥高效 。
此外 , 2016年AlphaGo击败围棋冠军李世石的人机大战中 , AlphaGo每局棋需消耗约100万瓦的电能 , 相当于一天约100户家庭的供电量 。相比之下 , 人脑消耗的功率仅20瓦 , 只有AlphaGo的5万分之一 。
真正公平的人机对战 , 应该在能耗等客观条件对等的情况 , 进行比拼 , 否则便跟背着火箭筒的五菱宏光跑赢法拉利超跑无异 。
纵使机器超越了人 , 但显然很低效 , 也不绿色 。
不仅仅是过往发生的事件反映了人工智能耗能巨大的问题 , 外国最新的论文结果也折射出相同的问题:平均一个 AI 大模型训练产生的能耗 = 五辆汽车一生排放的碳总量 。
这篇新论文是马萨诸塞大学阿默斯特校区的研究人员公布的 , 以常见的几种大型 AI 模型的训练周期为例 , 发现该过程可排放超过 626000 磅二氧化碳 , 几乎是普通汽车寿命周期排放量的五倍(其中包括汽车本身的制造过程) 。
数据中心|数据中心“吃掉”三峡大坝和葛洲坝:科技巨头也得拉闸限电?
文章图片
对此结果 , 很多AI研究人员感到震惊 。
西班牙拉科鲁尼亚大学的一位计算机科学家曾表示:“虽然我们中的很多人对此(能耗)有一个抽象的、模糊的概念 , 但这些数字表明事实比我们想象得要严重 。我或者是其他 AI 研究人员可能都没想过这对环境的影响如此之大 。”
以自然语言处理为例 , 研究人员研究了该领域中性能取得最大进步的四种模型:Transformer、ELMo、BERT 和 GPT-2 。研究人员在单个 GPU 上训练了至少一天 , 以测量其功耗 。然后 , 使用模型原始论文中列出的几项指标来计算整个过程消耗的总能量 。
结果显示 , 训练的计算环境成本与模型大小成正比 , 然后在使用附加的调整步骤以提高模型的最终精度时呈爆炸式增长 , 尤其是调整神经网络体系结构以尽可能完成详尽的试验 , 并优化模型的过程 , 相关成本非常高 , 几乎没有性能收益 。
以BERT模型为例 , 其碳足迹约为 1400 磅二氧化碳 , 这与一个人来回坐飞机穿越美洲的排放量相当 。
数据中心|数据中心“吃掉”三峡大坝和葛洲坝:科技巨头也得拉闸限电?
文章图片
那么 , 为什么AI模型会如此耗电?
因为与人类的学习方式相比 , AI 的训练效率非常低下 。
现代 AI 使用人工神经网络 , 这是模拟人脑神经元的数学计算 。每两个相邻神经元的连接强度都是神经网络上的一个参数 , 名叫权重 。神经网络的训练则需要从随机权重开始 , 一遍遍地运行和调整参数 , 直到输出与正确答案一致为止 。
常见的一种训练语言神经网络的方法是 , 从维基百科和新闻媒体网站下载大量文本 , 然后把一些词语遮挡起来 , 并要求 AI 猜测被遮挡起来的词语 。刚开始的时候 , AI 会全部搞错 , 但是 , 经过不断地调整后 , AI 会逐渐学习数据中的模式 , 最终整个神经网络都会变得非常准确 。
前文提到的 “BERT 模型”——基于变换器的双向编码器表示技术(Bidirectional Encoder Representations from Transformers , 简称 BERT) , 这是一项由 Google 提出的自然语言处理(NLP)的预训练技术 。
该模型使用了来自维基百科和其他文章的 33 亿个单词 , 而且在整个训练期间 , BERT 读取了该数据集 40 次 。相比之下 , 一个 5 岁的孩子学说话只需要听到 4500 万个单词 , 比 BERT 少3000倍 。
之所以有以上这些强烈的对比是因为:
在开发模型期间 , 上述训练过程需要反复多次 。因为研究人员需要将神经网络调整到最优 , 即确定神经元的个数、神经元之间的连接数以及各个权重 。他们需要反复尝试很多组合 , 才能提高神经网络的准确度 。然而 , 人类的大脑不需要寻找最佳结构 , 经过几亿年的进化 , 人类大脑已具备这种结构 。


推荐阅读