|CPU推理性能提高数十倍，旷视天元计算图、MatMul优化深度解读( 四 )

本文插图

对矩阵 A 进行数据 PACK 是将 A 中 mr 行数据的相同列拷贝到一起，如上图中将 A PACK 到 A’ 的步骤。重复完所有 A 中的行块便完成了 A 矩阵的数据 PACK 。 B 矩阵的 PACK 操作是，将 nr 列数据拷贝到连续的内存地址中，它对应上图 B PACK 到 B’ 的过程。
实验
按照文介绍方式方式，天元在 X86 和 ARM 上分别对 MatMul 进行了优化。下表展示了 ARM64 上的性能测试结果，实验平台为 kirin 980 。
首先，对该处理器进行分析可以看到，其主频为 2.6 GHz ，每个周期能够进行 16 次乘加计算，因此其理论计算峰值为 16*2.6=41.6 Gflops 。

本文插图

可以看到，经天元优化的 MatMul 计算，发挥出了该处理器 90% 以上的计算性能。
总结
本文以 Batch Norm 为例介绍了推理计算图的具体实现，以及 MatMul 在 CPU 上的优化细节。作为 CPU 推理优化的基石，最优的推理计算图是实现高性能 CPU 推理的前提条件，极致性能的 MatMul 计算基础算子将为实现卷积计算中的 Im2col 和 Winograd 提供性能保障。
在后面的文章中，我们将在详细介绍卷积计算中 Im2col 和 Winograd 的优化细节。
参考文献
1.Anatomy of High-Performance Matrix Multiplication
2.Fusing batch normalization and convolution in runtime
3.Arm? Cortex?-A76 Software Optimization Guide
欢迎访问
MegEngine WebSite：https://megengine.org.cn
【|CPU推理性能提高数十倍，旷视天元计算图、MatMul优化深度解读】MegEngine GitHub（欢迎Star）：https://github.com/MegEngine

|CPU推理性能提高数十倍，旷视天元计算图、MatMul优化深度解读( 四 )

推荐阅读

国际视角浅说▲萨达姆到底有没有罪？

于本人|小姐姐修身体恤，展现出优雅时尚的韵味

雷科技小牛电动新国标旗舰MQi2将于7日淘宝直播首发

客流|客流和销售减少新世界2020年上半年营收、净利润双降

[宝宝,太阳镜,宝宝,太阳镜]小么课堂：6岁以下的宝宝不能带太阳镜！

女生读什么职高好(女生初中没毕业能干啥)

聊聊虚拟内存

怎样拥有一个好记性

京东|京东招001号快递员，刘强东允诺干满5年买房，如今状况让人惊讶

寝室没穿好衣服，室友和男朋友开视频，怎样避免

泡发|干竹笋一般要泡多久比较好？

丝滑|分享一款形似果冻的冰蛋糕，软糯香甜，丝滑爽口，真是太美味了

小鱼段子手|搞笑段子：老公对我说道：老婆！这个月零用钱怎么还没发啊？

重庆市江津区人民法院|“炎”值爆表！江津铁道边的“安全守望者”

『辣椒新闻』这下闯祸了，收到警告，千方百计抱美国大腿？蔡当局行为令人发指

彩民|女子被告知中3亿彩票以为恶作剧，如今迫不及待地想把钱花出去

qg▲主播与职业的差距！巅峰榜前10全是职业，QG杰杰让大导演瑟瑟发抖

神思|画学散记：神思

哪些情况属于难产@哪些情况属于难产

穿搭|韩剧《Alice》主海报公开，周元X金喜善历代级相遇