即使在移动AI时代,软件仍将主导业界( 四 )


下一个问题就是在相同的硬件条件下 , 我们的方法能否超出现有的其它软件优化算法 , 也即压缩编译协同设计方法是否具有显著的优越性 。
我们在三星 Galaxy S10 智能手机上测试评估我们的算法性能 。 S10 拥有最新的高通骁龙(Qualcomm Snapdragon)855 移动平台 , 包含了高通 Kryo 485 8 核 CPU 和高通 Adreno 640 移动 GPU 。
下图显示了在 CPU 和 GPU 上 , 我们的算法与 TFLite , TVM 以及 MNN 加速框架的性能对比 。 我们采用了 6 种代表性的 DNN 模型结构 , 包括 VGG-16 (VGG), ResNet-50 (RNT), and MobileNet-V2 (MBNT), 在 CIFAR-10 和 ImageNet 这两个数据集上做训练 。 结果显示在所有的测试环境配置下 , 我们的压缩编译协同设计算法都超越了其它的加速框架 。
在移动 CPU 上 , 我们的算法相较于 TFLite , 实现了 12 倍到 44.5 倍的加速效果 , 相较于 TVM , 实现了 2.3 倍至 8.1 倍的加速效果 , 相较于 MNN , 实现了 1.9 倍至 15.5 倍的加速效果 。 在 GPU 上 , 相较于 TFLite , TVM 以及 MNN , 分别实现了 2.5 倍至 20 倍 , 4.1 倍至 11.4 倍 , 以及 2.5 倍至 6.2 倍的加速效果 。 对于最大的 DNN 模型 VGG 以及最复杂的 ImageNet 数据集 , 我们的算法在移动 GPU 上只需要用 18.9 毫秒就能完成单一输入图片的所有卷积层的计算操作 , 满足了实时性的要求(实时性通常要求实现每秒 30 帧 , 即每帧 33 毫秒) 。
即使在移动AI时代,软件仍将主导业界
本文插图

潜在应用
最后但也是最重要的一个问题就是在现有的移动环境和设备下 , 我们的算法可以实现哪些应用?这个问题直接关联到压缩编译协同设计方法的潜在的商业价值 。
为了说明这个问题 , 我们研究了三种可能的 DNN 应用 , 包括风格迁移(style transfer) , DNN 上色(coloring) , 以及超分辨率(提高分辨率 , super resolution) 。 风格迁移的模型是基于在微软 COCO 数据集上训练的生成型网络 , 可以实现视频流的实时风格迁移效果 。 DNN 上色用 Places scene 数据集去训练一个可以同时抽取与融合全局和局部特征的模型 , 来实现将一个黑白视频流实时地转化为彩色视频流的功能 。 超分辨率模型主要利用在 DIV2K 数据集上训练的具有更宽激活层与线性低秩卷积的差分模块 , 实现将低分辨率的视频流实时转化为高分辨率的视频流的效果 。
即使在移动AI时代,软件仍将主导业界
本文插图

正如图中所演示的 , 利用结构化剪枝以及编译优化 , 我们在三星 Galaxy S10 智能手机上实现了这些应用 。 对于风格迁移 , DNN 上色以及超分辨率 , 我们的算法可以分别获得 4.2 倍 , 3.6 倍 , 以及 3.7 倍的推理加速 。 结果显示 , 我们团队提出的压缩编译协同设计软件算法方案可以在移动平台上实现令人满意的高速实时效果 。 具体来说 , 所有的前向推理可以在 75 毫秒内完成 , 使得在现有的没有特殊硬件结构的移动设备上实时地运行复杂的 DNN 应用成为了可能 。 更多的演示视频请参考下面的网址 。
即使在移动 AI 时代 , 软件仍然占据主宰地位
我们这篇文章的核心观点是即使在 AI 时代 , 软件仍将主导业界 。 我们希望通过这篇文章能够向读者表明 , 我们还是可以在现有的商业计算设备上实现 AI , 并且提供甚至比专业的 AI 硬件加速器更高的加速效果以及能量效率 。 这能够扩展 AI 在边缘计算设备上的能力 , 并且改变人们对终端设备上实现实时 AI 就必须采用专业的特殊 AI 硬件的认知 。
我们相信这些结果会促使工业界重新审视现有的移动 AI 的发展方向和策略 。 这些令人振奋的进展显示了很多潜在的未来发展方向 , 我们这里列举两个 。


推荐阅读