|「专利解密」英特尔 混合架构人工智能芯片
【嘉德点评】英特尔发明的混合处理架构的人工智能芯片 , 通过将CPU与模拟内存AI处理器相耦合 , 从而达到加速神经网络运算的目的 。
集微网消息 , 英特尔在2019年发布了两款Nervana NNP系列新的处理器 , 目的在于加速人工智能模型的训练 。 据悉 , 英特尔的这两款芯片是以2016年收购的Nervana Systems命名 , 在人工智能训练以及数据分析等方面有着极大的价值 。
而英特尔与英伟达作为AI芯片竞争的主要成员 , 均在AI领域奋起发力 , 其中 , 英特尔主导AI推理市场 , 而英伟达主导AI训练芯片 。
但是用于神经网络处理的加速器系统 , 仍然存在着许多问题 , 例如由于与从存储器到数字处理单元的数据传输的带宽限制而导致的问题 , 这些加速器通常需要在片外存储器和数字处理单元之间传输大量数据 , 而这种数据传输会导致延迟和功耗的不良增加 。
为此 , 英特尔在2020年7月30日申请了一项名为“混合CPU和模拟内存人工智能处理器”的发明专利(公开号:US 2020/0242458 A1) , 申请人为英特尔公司 , 该专利旨在提供用于实现通用处理器的混合处理架构的技术 。
根据该专利目前公开的资料 , 让我们一起来看看这项混合处理架构的人工智能芯片吧 。
本文插图
【|「专利解密」英特尔 混合架构人工智能芯片】
如上图 , 为这种混合处理器的顶级框图 , 可以看到 , CPU与模拟内存AI处理器相耦合 , CPU是通用处理器 , 例如我们熟知的x86架构处理器 。 模拟存储器中AI处理器可以通过数字访问电路从CPU接收加权因子和输入数据130 , 并基于加权因子和数据执行模拟神经网络处理 。
模拟内存中AI处理器包括多个MN层 , 可以将它们配置为卷积神经网络层和全连接层 , 并且可以任意的组合使用 , 卷积神经网络层的处理结果也可以通过数字访问电路提供给CPU作为输出150 。
本文插图
如上图 , 展示了全连接层的网络层和该层的矩阵乘法实现 , 网络层接受来自于上一层的输入230 , 并将权重w(220)应用于输入x(230)和输出x(250)之间的每个连接 , 由此将网络实现为矩阵乘法运算 , 如260所示 , 将输出的每个元素计算为权重220行与输入230列之间的点积 。
本文插图
如上图 , 为该专利中的模拟内存人工智能处理器的框图 , AI处理器用来实现完全连接的单个神经网络层 , 其中包括数字访问电路310、第一存储器电路320、第二存储器电路350、位线处理器电路330、交叉位线处理器电路340以及阈值整流线性单元(ReLU)电路360 。
这些电路的作用就是实现各种点乘运算以及模拟乘法运算 , 这些运算是深度神经网络中常用的操作 , 而人工智能芯片就是在硬件的层面上对于这些运算进行实现 , 而直接从硬件层面进行运算的好处就在于会更加的快捷以及有较高的效率 。
具体而言 , 交叉位线处理器电路通过定时电容器上的电流积分来执行点积运算的模拟乘法部分 , 该电路实际上是一个与开关串联的电容器 。 在位线上感测到的电压作为被乘数输入之一 , 通过与电容器产生电流 , 另一个被乘数用来控制串联开关的时序 , 以使开关导通的持续时间与第二个开关成比例 。 从而通过电荷累积来执行点积运算的模拟求和部分 。
本文插图
最后 , 是这种用于模拟内存中神经网络处理的方法的流程图 , 如上图所示 , 可以看出 , 这种方法包括了多个阶段和子过程 , 分别对应着上述的系统架构来实现 。 首先 , 用于模拟内存中神经网络处理的方法通过数字访问电路从CPU中接收输入数据和加权因子而开始运算 。
推荐阅读
- 联想笔记本,英特尔|十代酷睿芯片加持,联想IdeaPad 14s展现小而美的魅力
- 基准测试|苹果M1在Rosetta 2下模拟x86的单核基准测试仍比英特尔处理器更快
- 英特尔|非K第十代酷睿最佳搭档 中端主板也可以很全面
- 数码钻研社|惠普申请智能镜子专利 PC巨头也看好物联网了
- 英特尔|AMD锐龙翻身!单核、多核CPU跑分均名列榜首
- AMD|为什么英特尔现在制程性能落后同价位AMD情况下,依然是王者?
- 玩懂手机|OPPO新手机专利曝光:拉伸屏+屏下前置摄像头
- 爱集微APP|“无银倒装LED芯片”技术持有公司拟实施专利战略
- 英特尔|MacBook Pro、MacBook Air、Mac Mini运行在苹果自己设计的M1硅上
- 英特尔,华硕笔记本|轻松畅玩游戏大作,英特尔Iris Xe核显性能体验