|亚马逊:我们提取了BERT的一个最优子架构,CPU速度升7倍
机器之心编辑部
提取 BERT 子架构是一个非常值得探讨的问题 , 但现有的研究在子架构准确率和选择方面存在不足 。 近日 , 来自亚马逊 Alexa 团队的研究者细化 BERT 子架构提取过程 , 并提取了一个最优子架构 Bort , 它的大小仅为 BERT-large 的 16% , CPU 上的推理速度却提升到了原来的八倍 。
本文插图
在自然语言处理领域 , BERT 是一个里程碑式的进展 。 只需要添加一个单层线性分类器和一个简单的微调策略 , 它就能在多项任务中达到优异的性能 。 但另一方面 , BERT 的应用也面临很多问题 , 如规模大、推理速度慢、预训练过程复杂 。 研究人员已经做了许多尝试来提取一个更简单的子架构 , 希望这个子架构能够保持原始 BERT 的优异性能 , 同时简化预训练过程 , 缩短推理时间 。 这些研究取得了不同程度的成功 。 然而 , 他们提取的这些子架构在准确率方面仍然低于原始架构的实现 , 而且架构参数集的选择往往看起来很随意 。
虽然这个问题在计算上很难解决 , 但 de Wynter 最近的一项研究表明:存在一种近似算法——更具体地说 , 一种完全多项式时间近似模式(FPTAS)——在一定条件下能够有效地提取出具有最优保证的此类集合 。
在本文中 , 来自 Amazon Alexa 团队的研究者将提取 BERT 最优子架构参数集这一问题细化为三个指标:推断延迟、参数大小和误差率 。 该研究证明:BERT 具备 strong AB^nC 属性 , 可满足这些条件组合 , 使上述算法表现得像 FPTAS 。 然后 , 研究者从一个高性能的 BERT 变体中提取了一个最优的子架构 , 称为 Bort , 其大小是 BERT-large 的 16% , 在 CPU 上的推理速度提升到原来的 8 倍 。
本文插图
论文地址:https://arxiv.org/pdf/2010.10499.pdf
GitHub地址:https://github.com/alexa/bort/
本文插图
尽管 FPTAS 可以确保找到表现最优的架构 , 但它返回的是在上述三个指标上表现最优的架构参数集 , 而不会输出一个训练到收敛的架构 。 因此 , 研究者对 Bort 进行了预训练 , 发现与原先的训练相比 , 预训练速度有了明显的提高:在相同的 GPU、数据集大小也相当的情况下 , Bort 训练了 288 小时 , BERT-large 训练了 1153 小时 , 而 RoBERTa-large 训练了 24,576 小时 。
研究者还在 GLUE、SuperGLUE 以及 RACE 公共 NLU 基准上对 Bort 进行了评估 。 结果表明 , 与 BERT-large 相比 , Bort 在所有这些基准上都获得了显著提高 , 提升幅度从 0.3% 到 31% 不等 。
研究者在 GitHub 上开源了训练模型以及代码:https://github.com/alexa/bort/
Bort:BERT 的「最优」 子 架构
Bert 是一种基于 transformer 的双向全连接架构 , 它包括一个依赖于词汇量的嵌入层(BERT 的词汇量 V = 28,996 tokens)、包含 Transformer 的 D 编码器层 , 以及一个输出层 。 BERT 架构刚推出时有两个变体:
BERT-large(D = 24 编码器层、A = 16 注意力头、H = 1,024 隐藏层大小、I = 4,096 中间层大小);
BERT-base(D =12、A = 12、H = 768、I = 3072) 。
在形式上 , 令 Ξ 表示包含四元组 (即架构参数)数值有效组合的有限集合 。 与 de Wynter (2020b) 的研究一致 , 该研究将 BERT 架构族描述为某个函数的陪域(codomain) , 如下公式 1 所示:
算法
该研究想要找出一个架构参数集 ξ =, 对推理速度 i(b(X; ·))、参数量 p(b(·; W) 和误差率 e(b(X; W^? ), Y ) 这三个度量指标进行优化 。
推荐阅读
- 亚马逊|亚马逊海外购史上最长“真黑五”全球狂欢重磅登场
- 亚马逊|亚马逊 Alexa 运算改用自主芯片 减少对 NVIDIA 的依赖
- 超能网|亚马逊转用自家芯片进行人工智能训练,只剩少量程序仍然以显卡来训练
- 胖仔|亚马逊测评你想知道的
- 路遇十三|提取阿里、淘宝小视频软件,可快速批量提取淘宝视频事前准备:步骤演示:
- 行业互联网|2020十大新兴技术揭晓!每一项都可能颠覆我们的生活
- 特斯拉|腾讯押注"天空版特斯拉" 电动"飞车"离我们不远了?
- 荟网Bamboo|5招爆单,不靠亚马逊广告,2020节日季爆单攻略
- 燃新秀资讯|中国已经有北斗导航,为什么我们仍然用GPS?答案始料不及
- 百度|“黑五”前夜亚马逊牵手百度难掩流量焦虑