行业互联网|AI芯片的新风向


李飞 半导体行业观察

行业互联网|AI芯片的新风向
本文插图

人工智能已经成为目前芯片行业的一个重要驱动力 。 回顾人工智能在半导体行业的发展 , 我们可以清晰地看到一条从云到终端的演进路线 。
最初 , 人工智能主要是作为一种服务部署在云端 。 本代人工智能基于大数据和神经网络 , 因此在训练时候需要大量的算力 , 在云端部署的时候也需要算力做支撑 , 因此云端人工智能领域中以Nvidia为代表的GPU加速人工智能成为了关注焦点 , 同时也有以Graphcore、Habana为代表的云端专用人工智能芯片公司与GPU分庭抗礼 。 2018年之后 , 随着模型和芯片设计的优化 , 人工智能逐渐从云端下沉到手机等强智能设备终端 , 在手机上基于人工智能算法的超分辨、美颜、人脸识别等应用也渐渐得到了主流认可 , 相应的芯片(IP)也就成为了手机SoC上不可或缺的一部分 , 高通、苹果、华为海思等都拥有自己的高性能人工智能加速IP , 用以支持手机人工智能应用 。
而随着人工智能技术的进一步演进 , 我们看到它正在进一步和物联网结合 , 超低功耗人工智能正是这个人工智能继续下沉的新动向 。
超低功耗人工智能芯片的应用场景
超低功耗人工智能芯片(IP)的工作功耗在数十毫瓦或更低(作为比较 , 手机端人工智能IP的工作功耗往往在数百毫瓦到瓦级别 , 而云端人工智能加速卡功耗通常在数百瓦) , 同时往往结合事件驱动技术 , 即绝大部分时间计算部分都处于休眠状态 , 仅仅在发生相关事件时才会启动 , 这样就可以把平均功耗降低到毫瓦数量级以下 。
超低功耗人工智能可以应用在什么场景下呢?消费电子领域中就有超低功耗人工智能的一席之地 。 在下一代智能设备如可穿戴设备和智能眼镜类设备中 , 设备由于尺寸等原因电池容量有限 , 而这些设备需要执行智能生物信号处理(例如智能手表上的心率检测)、手势识别(例如在目前的HoloLens中 , 基于人工智能的手势识别是主要用户交互方式)、语音识别等等 , 因此需要非常高能效比的人工智能加速模块 。 除此之外 , 在智能家庭等领域 , 超低功耗人工智能也有落地机会 , 例如目前的智能门锁市场 , 加入人脸识别会使智能门锁的用户体验大大改善 , 但是智能门锁通常必须依靠电池供电 , 而且预期的电池寿命至少要半年到一年 , 这样一来对于执行人工智能计算的模块就提出了非常高的能效比需求 。
除了消费电子之外 , 工业应用中也需要超低功耗人工智能 。 工业应用中对于超低功耗人工智能的需求往往来源于智能传感器 。 这类传感器安装在机器、机械臂、管道等重要环境中 , 需要能时刻监测各类信号并且运行相应的人工智能算法来判断运行状况 。 在这些场景下 , 传感器必须依靠电池供电 , 而超低功耗人工智能可以大大减少电池消耗 , 这也意味着传感器更换电池的间隔可以提升 , 这也就大大降低了这类传感器系统的部署和维护成本 。
超低功耗人工智能芯片的技术路径
目前 , 超低功耗人工智能芯片大概可以分为三种技术路径 。
首先是基于数字电路的超低功耗人工智能加速模块设计 。 使用数字电路向超低功耗方向的优化方法首先是从系统架构层面做优化 , 尽量减小模型的体积 , 并优化数据流以降低内存访问开销 。 此外 , 在电路层面可以降低电源电压 , 甚至使用亚阈值逻辑门设计 , 以降低电路运行时的功耗 , 以及漏电流 。 使用数字电路方法的优势在于可以更容易地与人工智能计算之外的模块集成并构成SoC , 而无需在数模转换上消耗额外能量 。
第二条技术路径是使用模拟计算来完成神经网络的计算 。 模拟计算往往和内存内计算相结合以实现高能效比 , 其具体的思路是目前人工智能计算中往往存储访问是能量消耗最大的部分 , 而使用模拟计算则可以在存储(如SRAM或Flash等NVM)读出电路中直接做计算 , 这样就省去了数据读出再计算的步骤 , 而可以直接在内存内完成计算 。 使用模拟计算配合内存内计算往往可以实现很高的能效比 , 例如欧洲的著名半导体研究机构IMEC宣布将在未来数年内完成能效比高达10000TOPS/W的模拟计算人工智能加速模块 。 但是模拟计算对于模型往往有较多限制 , 例如必须在计算精度较低时仍然能保证准确率等 , 因此需要很好的软件/硬件协同设计 。


推荐阅读