爱因儿科技|如何评估芯片的AI性能?地平线提出全新MAPS评测方法

集微网消息 , TOPS是不是能够真实的反映芯片的AI性能?这是地平线乃至行业都在思考的问题 。
伴随着对这个问题的思考 , 2019年 , 地平线联合创始人兼副总裁黄畅在全球人工智能和机器人峰会上表示 , 地平线希望定义真实的AI芯片性能 。
时隔一年 , 地平线再次亮相于2020全球人工智能和机器人峰会 , 并提出了一种新的芯片AI性能评估方式——MAPS , 即MeanAccuracy-guaranteedprocessingspeed(在精度有保障范围内的平均处理速度) , 意思是在精度有保障的范围 , 测AI芯片的平均效能如何 , 得到一个全面、完整、客观、真实的评估 。
如何评估芯片的AI性能?
对于芯片来说 , PPA指标尤为重要 , 包括Power(功耗) , Performance(性能) , Aera(面积) 。
黄畅表示 , 我们需要针对应用场景进行设计 , 可以指导研发调整优化防线 , 引导客户进行正确选择 , 同时能够促进行业有序协同向前发展 。
历史上有很多常用的性能评估指标 , 比如CPU用MIPS , 传统GPU用Textur和Pixel , 在高性能计算上 , GPU开始使用TFLOPS , 进入到NPU时代 , 业内普遍使用TOPS 。
不过 , 当提到TOPS的时候 , 往往说的都是芯片的峰值算力 , 体现的是整个芯片的理论上限 , 但这显然不能代表AI芯片的全部性能 。
地平线曾表示 , 真正的AI芯片性能还包括算法处理速度和精度 , 算力的有效利用率以及算力转化为AI性能的效率等 。
爱因儿科技|如何评估芯片的AI性能?地平线提出全新MAPS评测方法
文章图片
那么 , 如何评估芯片的AI性能?黄畅表示 , 可以从准、快、省这三个维度来看 。
爱因儿科技|如何评估芯片的AI性能?地平线提出全新MAPS评测方法
文章图片
黄畅进一步指出 , 准是反映实际需求任务上的算法精度 , 比如说图像分类里面我们用Top-1或者Top-5的精度判断它是不是准 , 还有COCO里面可以用mAP这样的指标描述它 , 不同的任务里面 , 在学术界已经有比较多共识的指标描述它 。 在快的方面 , 通常有两个维度 , 一个是延迟 , 一个是吞吐率 , 前者更侧重于处理单个任务的最快反应时间 , 后者应用于你可以在服务器层面上用最大的处理方式处理它的吞吐率 。 省就是看它的成本和功耗 。 对于AI芯片的性能评估来讲 , 准和快是两个非常重要的因素 。
更具包容性、更开放的评估标准
基于对AI芯片的深刻理解 , 地平线提出一个更有包容性、更开放的评估标准——MAPS 。
黄畅表示 , MAPS对行业有以下六大点创新之处 , 第一 , 能够可视化芯片的Benchmark , 可以通过可视化的图形更精确的表达 。 第二 , 关注真实、面向结果的需求 , 只在乎精度和速度 , 不在乎中间任何关于算法的取舍和选择 。 第三 , 可以统一表示精度与速度 , 关注主流精度区间 。 第四 , 隐藏与最终结果无关的中间变量 , 包括模型、输入大小、批处理 。 第五 , 通过这种方法可以在算力之外帮助用户理解芯片到底能跑多快以及多好 , 最终留有最大的空间引导客户使用最优的方式使用这颗芯片 。
【爱因儿科技|如何评估芯片的AI性能?地平线提出全新MAPS评测方法】作为AI领域的奥林匹克竞赛 , ImageNet比赛产生了几乎所有机器视觉中最重要的模型 , 它们在ImageNet上的精度可充分迁移到其他机器视觉任务(如物体检测、语义分割等) 。 在ImageNet的主流精度范围(75~80%)下 , 速度最快的模型所代表的点(由精度和帧率确定)所围多边形面积大小即为芯片处理ImageNetAI任务的能力大小 , 其公式为MAPS=所围面积/(最高精度-最低精度) 。 在演讲现场 , 黄畅还展示了MAPS评估方式在在ImageNet上的定义与主流芯片测试结果 。
爱因儿科技|如何评估芯片的AI性能?地平线提出全新MAPS评测方法


推荐阅读