那年初夏|华人学者提出软件算法架构加速AI实时化，性能超越GPU、FPGA( 三 ) 作者|王言治

除了CNN网络，他们还在RNN上与FPGA硬件加速器ESE和C-LSTM做了对比（如图4所示）。即使CoCoPIE不使用任何量化技术。 CoCoPIE当压缩率高于245倍时，有着与ESE相同的推理时间(ESE为82.7us) ，而CoCoPIE的GPU能量效率比ESE高将近40倍，比C-LSTM高近12倍。因为，与ESE的查找表激活算法相比， CoCoPIE的编译器优化显著提高了并行性和内存性能，而ESE的查找表激活算法导致了有限的并行化和不规则的内存访问。 C-LSTM则存在两个不容忽视的问题，一是识别能力不高，二是无法利用手机GPU的并行节能运算模式，而CoCoPIE框架可以同时确保高识别率、高能量效率、多平台执行。
他们还将CoCoPIE的测试结果与现有的加速框架进行了对比，由于这些框架缺乏像CoCoPIE所使用的“压缩-编译”协同设计方法，他们的性能不如CoCoPIE 。图5为CoCoPIE与TFLite ， TVM以及MNN加速框架在普通的三星GalaxyS10手机的CPU和GPU上的性能对比。 S10拥有最新的高通骁龙（QualcommSnapdragon）855移动平台，包含了高通Kryo4858核CPU和高通Adreno640移动GPU 。结果显示在所有情况下， CoCoPIE都超越了其它的加速框架。
CoCoPIE架构中使用了两个关键技术来实现AI应用在手机端的加速，即“模型压缩”与“编译器优化” 。
模型压缩技术主要分为两类：1.剪枝（pruning）；2.量化（quantization）
剪枝技术意在删除模型中冗余的权重来减少权重的存储量和计算量，而量化技术意在降低权重的精度来减少存储和加快计算速度。
在CoCoPIE架构中他们新提出了“卷积核模式剪枝（kernelpatternpruning）”和“连通性剪枝（connectivitypruning）” ，以便在不损失准确性的情况下实现更高的剪枝倍率和加速效果。
在编译器优化方面， CoCoPIE主要使用了以下技术：
1.压缩权重存储（compressedweightstorage）
压缩权重存储格式是专门为CoCoPIE中使用的卷积核模式和连通性剪枝设计的。卷积核与输出通道重排结合后，这种紧凑的数据结构比传统的CSR（压缩稀疏行）格式能够产生更好的压缩率。
2.消除负载冗余（loadredundancyelimination）
通过在内核执行代码生成过程中通过分析处理两个寄存器级负载冗余问题，解决了基于卷积核模式化剪枝对内存性能的挑战。在内存和缓存之间的数据移动已通过高级数据平铺技术进行了优化的前提下，这种负载冗余消除有着更加重要的意义。

那年初夏|华人学者提出软件算法架构加速AI实时化，性能超越GPU、FPGA( 三 )

推荐阅读

罂粟苗可以像食用普通青菜那样食用么

京东数科招股书背后：“to B”基因明显

DNF|DNF：2天翻2张金牌！希洛克金牌率提升，欧皇非酋差距更大了

产业气象站■支付宝季度三连涨继续领跑整个行业，外媒：中国移动支付全球领先

如何使用腹肌板呢

小鹏汽车怎么样？解锁小鹏G3新颜色享受多彩时光

亚克力浴缸价格走势

试驾车在哪里买可以便宜多少 4s店的试驾车能买吗

专家|悬崖上发现多座楚王墓，崖顶上又发现多间寺庙，专家：两者关系可大了

美国法律专家怎么看TikTok起诉美政府？特朗普政府选择了审核程序政治化

苏东坡|古有苏东坡，今有郭沫若：郭沫若为什么自称比苏轼牛，他配吗？

|与吴君如弟弟离婚6年！江美仪与前婆家人聚会，相处融洽不尴尬

心如温暖之夏|往往喜欢做3件事，福气越来越深厚，一个有福气的人

3DMGAMETB《糖豆人：终极淘汰赛》宣传片演示60人撕逼大战

聚成教育|Excel表格技巧—如何根据单元格大小自动调整文字大小

科技部：科技部：老药磷酸氯喹治疗新冠肺炎有疗效

大便的成分是啥

苹果|“iPhone 13”遭国内厂商提前发售：小刘海、侧边指纹只卖599！

沃尔夫斯堡足球俱乐部|比如进她个100球？，下赛季定个小目标

影院|黑龙江发布公告：非必要不离哈！感染者曾连续三天玩剧本杀