光学|光学计算有望改变游戏规则的AI性能

_原题为 光学计算有望改变游戏规则的AI性能
[据美国电子工程网站8月24日报道]麻省理工学院的分公司Lightmatter开发用于人工智能加速的光学计算处理器 , 本周在Hot Chips 32上展示了一种测试芯片 。 利用硅光子学和MEMS技术 , 处理器以毫瓦激光光源为动力 , 以光速(在硅中)执行矩阵矢量乘法 。 与基于晶体管的芯片(包括最新的GPU)相比 , 计算速度要快几个数量级 , 而且功耗很小 。
Lightmatter的目的是通过展示该测试芯片来证明其处理器设计方法是可靠的 。 该公司是最早提供针对AI推理工作负载量身定制的工作光学计算(硅光子学)芯片的公司之一 。
【光学|光学计算有望改变游戏规则的AI性能】Lightmatter将于2021年秋季推出其首个商业产品 , 该产品是基于该演示器的后继产品的带光学计算芯片的PCIe卡 。 专为数据中心AI推理工作负载而设计 。
硅光子技术的进步-通过硅芯片传播光-使复杂的片上结构成为可能 , 可以对其进行操纵 , 以与传统的基于晶体管的电子器件完全不同的方式执行MAC操作 。 由于基于晶体管的芯片达到了Dennard缩放的极限 , 因此单位面积的功耗增加了 , 并且冷却技术的实际极限无法跟上更大的芯片 。 因此 , 存在具有节能优势的不同技术的空间 。
Lightmatter首席执行官尼克·哈里斯(Nick Harris)在EE Times接受热芯片采访之前说:“我们通过使用一种完全不同的物理类型解决了整个能量缩放问题 。 ”“这意味着我们可以使用一组不同的规则进行扩展 , 因此[光学计算]更快 , 能耗更低 。 ”
究竟有多快 , 有多低能量?
哈里斯说:“我们可以利用现有的AI数据中心 , 将能源消耗减少20倍 , 而物理足迹减少5倍 。 ”“而这只是我们正在构建的第一代产品 。 未来的路途很长 。 ”
哈里斯强调说 , 该测试芯片是作为该技术的演示器而构建的 , 并且在基准测试中表现不佳 , 但他坚持认为 , 在实际应用中 , Lightmatter的演示器仍将击败AI加速器的市场领导者Nvidia的Ampere A100 。 哈里斯说 , 与A100相比 , Lightmatter的芯片在BERT和Resnet-50推理等工作负载上提供20倍的能源效率和至少5倍的吞吐量 。
芯片设计
实际上 , Lightmatter的芯片是两个垂直堆叠的芯片 。 最上面是一个12nm ASIC , 用于存储内存并协调位于下面的90nm光学计算机芯片的控制 。 两个管芯均在GlobalFoundries上使用标准CMOS工艺制造 。
光子处理器具有64 x 64光子矩阵矢量乘积计算器;数据在不到200皮秒的时间内传播到整个芯片 , 比晶体管计算要快几个数量级 , 晶体管计算需要多个时钟周期 。 计算引擎由50毫瓦的激光驱动 。
哈里斯认为 , 这种低功耗光学计算芯片的优势之一是可以与控制/内存ASIC进行3D堆叠 。 基于晶体管的计算芯片会散发过多的热量 。 哈里斯指出 , 堆叠的芯片缩短了ASIC上的操作数存储区与光子芯片上的计算元件之间的跟踪线-从数据转换器到光学计算引擎的距离不到总路由的1毫米 。 反过来 , 这改善了延迟和功耗 。
哈里斯说:“这里有一个很好的积极反馈回路 。 ”“省电让我们可以堆叠 , 而堆叠可以节省更多功率 。 ”
DAC接收数字输入信号 , 将其转换为模拟电压 , 并使用该电压来驱动激光器(该技术已在光纤发送器中广泛使用) 。 来自该激光器的光进入计算阵列 。 计算元素是马赫曾德尔干涉仪(MZI) 。 进入MZI的相干光分为两部分 , 每半部分的相位调整不同 。 将具有不同相位的信号组合会导致相长或相消干涉 , 从而有效地调制通过MZI的光的亮度(该调制可被视为乘法运算) 。 在波导(承载光的“电线”)相遇的地方 , 信号被有效地加在一起 。 这是光MAC的基础 。 从计算阵列输出的光到达光电二极管 , 光电二极管的信号通过ADC馈送 , 以便与其余数字电路接口 。
MZI中的关键操作是通过机械方式实现的 , 用于改变光的相位 。 在他的Hot
Chips演讲中 , Lightmatter副总工程师Carl Ramey解释说 , 光子学芯片使用纳米光学机电系统(NOEMS) 。 与MEMS器件类似 , 波导结构通过在下面蚀刻而悬挂 , 然后通过向其上方和下方的电容器板添加电荷来偏转 。 这样可以成功地将光的相位更改为所需的数量 。
“NOEMS设备具有一些非常惊人的性能 , ”Ramey说 。 “它们的损耗极低 , 静态功耗几乎为零 。 我们只需将一些电子倾倒到小电容器上 , 几乎没有泄漏-电容足够小 , 致动所用的动态功率也确实很小 。 [这些结构]也可以以相对较高的速度启动 , 最高可达数百兆赫 。 ”
节约能源
拉米说 , Lightmatter的演示器具有64 x 64计算元素 , 但是可以很容易地扩大规模 。
他说:“类似于基于晶体管的脉动阵列 , 计算量与面积成线性比例关系 。 ”
“延迟也随着阵列的尺寸而缩放 。 因此 , 在典型的流水线晶体管设计中 , 您需要64个时钟周期来执行此处的操作 , 从左到右 。 我们的延迟也会随着阵列尺寸而增加 , 但速度要快三个数量级 。 因此 , 即使是一千乘一千的阵列 , 其延迟也将大大低于纳秒 。 ”


推荐阅读