半导体行业观察|前端人脸识别芯片选型指南


半导体行业观察|前端人脸识别芯片选型指南
文章图片
来源:内容来自半导体行业观察(ID:icbank)的原创文章 , 作者:BillG , 谢谢 。
之前跟?家交流端侧AI芯?的过去与现状 , 后续想跟各位?伙伴陆续聊?些我所做过的AI应?在芯?选型过程的总结考量 。 当今的AI领域 , 如果说商业变现之最 , 我觉得当之?愧是?脸识别应? 。 从早期基于服务器的公安/?融应? , 到现在随处可?的前端?脸识别摄像头、?禁考勤机、?蛙/蜻蜓的刷脸?付 , 这种从云到端的变化很?程度上归功于前端芯?AI计算能?的?幅提升 , 17年时我们提到AI算?还以”G“为量级 , 今天拥有"TOPS"算?的前端SOC已经??皆是 。 那么对于?脸识别的前端应? , 我们该如何选择合适的芯?开发产品呢?
【半导体行业观察|前端人脸识别芯片选型指南】从“准快稳”到“稳准快”
既然今天讨论的是?脸识别在前端的应? , 那么我们先简要介绍?下?脸识别及应?是什么?我?脸识别的本质是基于?脸信息 , 通过深度学习技术?段 , 对?员身份进??种“鉴权” 。 这种鉴权的结果 , 当我们加上“时间”和“空间”维度的数据标签后 , 就可以让?脸识别形成上层应? 。 ?如当对?脸识别结果增加“时间”标签后 , 这就是访客系统的雏形;当我们增加“时间”+“空间”标签后 , 这就是考勤系统的雏形;当鉴权+时间+空间都满? , 同时增加了?机账户信息后 , 这就是?付系统的雏形 。 ?切的基础来?于适应不同标准的鉴权结果 。
由于?脸识别是典型的技术驱动催?的产品应? , 从15年到17年产品的主要关注点依次还是准确率>速度>系统稳定性 , 在早期最容易证明技术准确性的就是在Imagenet“刷榜” , 我们?乎可以看到今天的独?兽在那个时间段都上过榜 。 到了17年后 , ?家开始推出前端硬件产品 , 开始在速度上?拼 , 这?的原因有? , 第?是学术界精度研究的触顶 , 第?是专?的AI芯?开始普及 。 从18年到?今 , 由于市场开始爆发 , 出现规模效应 , 系统稳定性的价值开始被?家?泛关注 , 所以我们衡量好的?脸识别产品也从“准快稳”到了“稳准快” 。
前端?脸识别产品由推理算法及算法应?、嵌?式(影像系统、连接系统、显示系统等等)、端云结合应?三?核?组件构成 , 当然每个硬件产品都需要具备的PCBA、模具、线缆基础部分也需要具备 。 下?的?章会逐步给?家介绍这三?核?组件以及它们与SOC芯?的关系 。
理解AI计算
?脸识别应?离不开深度学习算法的突破 , 深度学习算法?离不开卷积神经?络的发展 , 我们将?脸识别产品落地的过程 , 其实就是将卷积运算运?在各类前端处理器的过程 。 那么在这个过程中有哪些值得我们注意的地?呢?
?精度轻量化模型——上?的?章我们讲过 , ?脸识别算法已经度过了通过?型?络提?精度的时代 , 像mobilenet这种轻量化的分类模型 , 已经在精度上达到了VGG-16?平(71%) , 新的v3版本甚?还做到了超越 。 在精度接近的情况 , 这种轻量化模型?疑能速度上占据优势 , 同时这类?精度轻量化模型的发展 , 也??降低了AI处理器的算?准??槛 。
卷积运算硬件化——深度学习算法?络?般有池化、卷积、BN、激活函数、全连接等操作 , 但是其中90%以上的运算都集中在卷积过程 , 卷积操作本质是卷积核矩阵与输?数据矩阵的乘加 。 我们在早期没有专?硬件时 , 使?ARMCPU来完成这种乘加操作 , 接着?尝试了多核DSP , 后来选择了以硬件乘加器MACs组成的CNN加速器 。 ?专?CNN加速器在前端胜利的原因当然是最优卷积运算效率和最优的能效 , 本质上赢在?个“专”字上 。
深度卷积的提出——mobilenet这种轻量化模型的发明 , 本质的创新在于对深度卷积(depthwise)的引? , 深度卷积相?于普通卷积?幅降低了乘加计算量 , 同时也减少了模型的参数量 。 这对于芯?CNN部分影响就?常?了 , 试想当乘加器的运算耗时?幅减少 , CNN部分的计算瓶颈就来到了数据交换速率 , 也就是数据带宽 。 由于这?创新是17年才提出 , 在近两年才被逐步认可其精度的等效性 , ??前?代的CNN加速器芯?也都是这两年的才陆续上市 , 他们的规划时间?多也是在1718年 , 因此如果单就CNN加速器的发展?? , 应该在下?代AI芯?会对深度卷积有较好的?持 。


推荐阅读