硬件如何撬动移动端AI万亿美元市场? 华人学者新研究实现移动端神经网络180倍加速( 五 )


DNN在整个应用中扮演着一个很重要的角色 , 导致我们主要聚焦于DNN的优化 , 而缺乏对整个应用的优化 , 以至于难以满足用户的实际需求 。 所以一个很重要的方向就是如何将压缩编译协同设计的原理拓展到对整个AI应用的全面优化过程中 。 第二个方向是扩展基于协同设计的优化的适用性 。 这一方向关联到隐私性与安全性 , 这是在很多AI模型构建和部署中很重要的两个因素 。 如何将它们有机地与压缩编译协同设计过程相结合 , 这是一个值得研究的问题 。
通常来说 , 模型剪枝需要访问模型和整个训练数据集 。 但是在某些场景下 , 由于隐私政策或者公司之间的人造边界 , 模型的优化者可能并不能够访问数据集 。 有效规避这些拦路石可以扩展协同优化方案的适用性 。
压缩编译协同设计软件算法方案可以在数十亿的现有的移动设备以及数万亿的大有可为的物联网设备上 , 立即实现实时的深度学习应用 , 产生巨大的商业价值 。 比如说 , 这种方法可以极大地提升视频流应用(如抖音 , Netflix , YouTube或者Snap)的用户在低宽带场景下的用户体验 。
这些应用可以推送低分辨率的视频到用户的设备 , 然后我们可以实时地将之转化为高分辨率的视频 。 类似的 , 视频通信类应用 , 如Zoom , Skype , 和WebEx , 可以利用压缩编译协同设计方法 , 达到最好的服务质量 。 此外 , 这种方法还能够解锁很多之前不可能的实时深度学习应用 , 例如用一个移动手机摄像头来获得实时的带有艺术风格的视频流 。
本节为感兴趣的读者提供更多的细节 , 以理解压缩编译协同设计是如何运作的 。 利用压缩编译协同设计方案 , 我们可以方便的支持所有种类的DNN , 包括CNN , RNN , transformer , 语言模型等等 。 此外 , 这种实现了最快的DNN剪枝与加速的框架, 相较于现有的DNN加速方案如TensorFlow-Lite , 它最高可以实现180倍的加速 。
总而言之 , 压缩编译协同设计方案可以使得AI应用在现有的移动设备上实时地运行 , 这在原来的观念中 , 被认为是只有专业的硬件设备支持才能够做到的 。
如果您想挖掘更多的技术细节 , 可以参考下面的完整的压缩编译协同设计技术概览 。
https://arxiv.org/abs/2003.06700
我们在下面的网址中展示了利用压缩编译协同设计方案在现有的移动设备上实现实时地视频分辨率提升的视频 。
https://search.bilibili.com/all?keyword=cocopie&from_source=nav_search&spm_id_from=333.851.b_696e7465726e6174696f6e616c486561646572.9
关于基于卷积核模式化剪枝以及算法层优化的细节与结果 , 读者可以参考下面的研究论文:
[AAAI’2020] Xiaolong Ma, Fu-Ming Guo, Wei Niu, Xue Lin, Jian Tang, Kaisheng Ma, Bin Ren, and Yanzhi Wang, PCONV: The Missing but Desirable Sparsity in DNN Weight Pruning for Real-Time Execution on Mobile Device, The 34th AAAI Conference on Artificial Intelligence, February, 2020.
关于基本卷积核模式化剪枝的编译代码生成以及优化的框架 , 以及与算法层优化和系统层优化相结合的细节与结果 , 读者可以参考下面的研究论文
[ASPLOS’2020] Wei Niu, Xiaolong Ma, Sheng Lin, Shihao Wang, Xuehai Qian, Xue Lin, Yanzhi Wang, and Bin Ren, PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning, The 25th International Conference on Architectural Support for Programming Languages and Operating Systems, March, 2020.
关于更快实现DNN剪枝的基于具有可组合性(composability)的编译框架的细节与结果 , 读者可以参考下面的研究论文
[PLDI’2019] “Wootz: A Compiler-Based Framework for Fast CNN Pruning via Composability”, Hui Guan, Xipeng Shen, Seung-Hwan Lim, Programming Language Design and Implementation, Phoenix, AZ, USA, June, 2019.


推荐阅读