深扒英伟达安培新架构,五大技术新招刀刀见血( 四 )


深扒英伟达安培新架构,五大技术新招刀刀见血
文章图片

FP32是当前深度学习训练和推理中最常用的格式 , 而TF32的工作方式与FP32相似 , TF32 Tensor Core根据FP32数据的输入转换成TF32格式后进行运算 , 最后输出FP32格式的结果 。
借助于NVIDIA库 , 使用TF32 Tensor Core将A100单精度训练峰值算力提升至156 TFLOPS , 即V100 FP32的10倍 。
为了获得更好的性能 , A100还可使用FP16/BF16自动混合精度(AMP)训练 , 只需修改几行代码 , 就能将TF32性能再提高2倍 , 达到312 TFLOPS 。
深扒英伟达安培新架构,五大技术新招刀刀见血
文章图片

NVIDIA正与开发AI框架的开源社区合作 , 致力于使TF32成为A100 GPU上的默认训练模式 。
今年6月份 , 开发人员将可以在NGC的NVIDIA GPU加速软件列表中获取支持TF32的PyTorch版本和TensorFlow版本 。
2、结构化稀疏
要实现A100 TF32运行速度提升20倍 , 还需用到第三代Tensor Core的另一个关键特性——结构化稀疏 。
稀疏方法对于算法工程师来说不算陌生 , 通过从神经网络中提取尽可能多不需要的参数 , 来压缩神经网络计算量 。 其难点在于如何兼顾更快的速度和足够的准确率 。
而安培架构中利用稀疏Tensor Core , 即做到了提供高达2倍的峰值吞吐量 , 同时不会牺牲深度学习核心矩阵乘法累加作业的准确率 。
这是少有的通过硬件对密集计算进行稀疏优化的方法 。
深扒英伟达安培新架构,五大技术新招刀刀见血
文章图片

该方法首先使用密集的权重训练网络 , 然后引入2:4细粒度结构稀疏模式进行剪枝 , 最后重新训练 , 然后重复训练步骤 , 采用和之前训练相同的超参数、初始化权重和零模式 。
具体压缩方式是限定只做50%稀疏 , 要求每相邻4个元素中最多有两个非零值 , 有index数据结构指示哪两个数据不被置零 。
权重经压缩后 , 可有效将数学运算速度提高2倍 。
为什么理想性能上限可以提升2倍呢?如下图所示 , 矩阵A是一个16x16稀疏矩阵 , 稀疏性为50% , 遵循2:4稀疏结构 , 而矩阵B是一个只有A一半大小的16x8密集矩阵 。
深扒英伟达安培新架构,五大技术新招刀刀见血
文章图片

标准的矩阵乘积累加(MMA)操作不会跳过零值 , 而是计算整个16x8x16矩阵乘N个周期的结果 。
而使用稀疏MMA指令 , 矩阵A中每一行只有非零值的元素与矩阵B相应元素匹配 , 这将计算转换成一个更小的密集矩阵乘法 , 实现2倍的加速 。
在跨视觉、目标检测、分割、自然语言建模和翻译等数十种神经网络的评估中 , 该方法的推理准确率几乎没有损失 。
经结构化稀疏的A100 TF32 Tensor Core深度学习训练算力最高达到312 TFLOPS , 是V100 INT8峰值训练速度15.7 TFLOPS的20倍 。
经结构化稀疏的A100 INT8 Tensor Core执行深度学习推理速度最高达到1248 TOPS , 是V100 INT8峰值推理速度62 TOPS的20倍 。
深扒英伟达安培新架构,五大技术新招刀刀见血


推荐阅读