前瞻网▲麻省理工的新系统可以降到3位数,训练神经网络碳排放是开车5倍


前瞻网▲麻省理工的新系统可以降到3位数,训练神经网络碳排放是开车5倍
文章图片
随着人工智能的持续火热和不断发展 , 暴露的问题也越来越多 , 其中的某些伦理问题更是社会关注的焦点 。 不过 , 近期有人发现 , 它还存在严重的可持续发展问题 。
去年6月 , 马萨诸塞大学阿默斯特分校的研究人员发布了一份令人吃惊的报告 。 他们预计 , 训练和搜索某种神经网络结构所需的能量会造成约626000磅(约283948公斤)二氧化碳的排放 , 这相当于美国汽车平均寿命排放量的近5倍 。
当模型进入部署阶段 , 这个问题变得更加严重 。 在这个阶段 , 需要在不同的硬件平台上部署深层神经网络 , 而每个平台具有不同的属性和计算资源 。
麻省理工学院的研究人员开发了一种新的自动化人工智能系统 , 用于训练和运行某些神经网络 。 结果表明 , 通过在一些关键方面提高系统的计算效率 , 可以减少碳排放量——在某些情况下 , 可以降低到低3位数 。
神经网络会自动搜索大量的设计空间 , 寻找适合特定硬件平台的网络架构 。 不过 , 其仍然存在一个培训效率问题:每个模型都必须经过选择 , 然后从头开始为其平台架构进行培训 。
在即将到来的物联网时代 , 从10美元的物联网设备到600美元的智能手机 , 可能会有几十亿设备接进某个网络 。 如果要为所有这些网络培训架构 , 其消耗将是惊人的 。
研究人员以人工智能领域的最新进展AutoML为基础建立一个新系统 。 在这个“一劳永逸”(OFA)的网络系统中 , 他们只训练一个大型母网络 , 其中嵌套了大量的子网络 , 这些子网络很少从母亲网络激活 。 母网络与所有子网络共享其所有学习到的权重——这意味着它们本质上是预先训练过的 。 因此 , 每个子网可以在推理时独立运行而无需重新训练 。
【前瞻网▲麻省理工的新系统可以降到3位数,训练神经网络碳排放是开车5倍】该团队还训练了一个具有多种结构配置的卷积神经网络 , 包括不同数量的层和“神经元”、不同的滤波器尺寸和不同的输入图像分辨率 。 给定一个特定的平台 , 系统使用OFA作为搜索空间 , 根据与该平台的功率和速度限制相关的精度和延迟权衡来查找最佳子网 。
本质上OFA是将模型训练和结构搜索分离 , 并将一次性训练成本分散到多个推理硬件平台和资源约束上 。
这依赖于“渐进收缩”算法 , 该算法有效地训练OFA网络以同时支持所有子网 。 它从训练最大规模的完整网络开始 , 然后逐步缩小网络的规模以包括更小的子网络 。 较小的子网在大的子网的帮助下被训练成一起成长 。 最后 , 支持所有不同大小的子网 , 允许根据平台的功率和速度限制进行快速专门化 。 它支持许多硬件设备 , 在添加新设备时 , 培训成本为零 。
此外 , OFA不影响准确性或推理效率 。 相反 , 它在移动设备上提供最先进的ImageNet精度 。 而且 , 与最先进的行业领先的卷积神经网络模型相比 , 研究人员说OFA提供了1.5-2.6倍的加速 , 具有更高的精确度 。
“(我们的)目标是更小、更环保的神经网络 , ”电气工程与计算机科学系助理教授SongHan说 , “到目前为止 , 探寻高效的神经网络结构已经产生了巨大的碳足迹 , 但我们的新方法可以将足迹缩小几个数量级 。 ”
这项工作在IBM捐给麻省理工学院的高效计算集群Satori上进行 , 每秒能够执行2万亿次计算 。
这篇论文将于下周在国际学习代表大会上发表 。 与韩寒一起发表论文的还有来自EECS、MIT-IBM沃森人工智能实验室和上海交通大学的四名本科生和研究生 。
编译/前瞻经济学人APP资讯组
参考资料:
[1]https://www.eurekalert.org/pub_releases/2020-04/miot-rtc042320.php


    推荐阅读