平台@龙加智 |关注时延、性能、功耗并重应用的实时AI计算平台

近日 , 龙加智CEO胡遇杰接受了36氪的专访 。 胡遇杰表示“公司关注当下市场的同时对AI芯片提出了更高要求:更快处理速度、更低功耗、更低延迟 , 以独特的芯片架构、高效率灵活的软件架构为核心 , 开发了包括FPGA(现场可编程门阵列)和ASIC(特定应用集成电路)产品以及相关的SDK(软件开发工具包)等软件产品在内实时AI计算平台 。 ”近年来 , 人工智能在安防、物流、无人驾驶、医疗、教育等领域逐步深入落地 , 多样化的场景需求进一步推动算力需求的提升 , 同时也带动了AI芯片需求的快速增长 。 Gartner曾预测 , 全球人工智能芯片的销售额将在2023年达到343亿美元 , 而2018年这一数字为42.7亿美元 , 年增长率可达52% 。
“龙加智实时AI计算平台平台可广泛应用于私有云、5G、边缘云计算、工业自动化、无人商店等领域 , 能在提供与同类产品一致性能表现下 , 实现更低功耗、确定的更低时延 。 ”
【平台@龙加智 |关注时延、性能、功耗并重应用的实时AI计算平台 】龙加智CEO胡遇杰告诉36氪 , 目前市场上的AI芯片还存在以下痛点:
一是绝大部分的AI芯片解决方案没有针对延迟优化 , 难以满足低时延和低“时延抖动”(单次请求的时延波动值)场景的需求 。 比如在自动驾驶中 , 计算延时必须控制在毫秒级别 , 否则可能造成车毁人亡;而且延迟的确定性对整个系统稳定性至关重要 。 在语音控制场景中 , 长时延造成的卡顿也会影响用户体验 。
二是大部分AI芯片谈到低时延的时候仅仅针对图像和视频处理 。 其实低时延对语音识别 , 搜索引擎 , 和自然语言处理等都有很大价值 。
三是AI处理器使用门槛高 , 不易使用 , 难以将其性能发挥到最好;另外 , AI算法进化速度很快 , 很多AI计算平台难以适应未来算法 。
针对这些问题 , 龙加智都有相应的方案推出 。 “龙加智在关注提升计算性能、降低功耗的同时 , 重视延时的缩短 。 “不仅仅是降低了延时 , 而且固定的、稳定的低延时 , 即计算平台在多次执行同一个任务时 , 反应时长是一个固定的数 。 ”胡遇杰表示 , “市面上 , 许多AI处理器 , 每次执行同一任务时 , 反应时间都不一样 , 而用户在使用我们的计算平台时 , 是可以预计确切反应速度的 , 就可以增加整个系统的确定性和可靠性 。 ”
龙加智的AI芯片的延迟对大部分的AI任务都做到了低延迟 , 包括图形图像 , 语音 , 搜索 , 自然语言处理等 。
不仅仅延迟 , 在计算性能上也有优势 。 根据测算 , 在具体的应用中 , 龙加智ASIC产品用于语音AI识别 , 处理能力约为Nvidia Tesla V100的13倍 , 功耗仅仅是前者的1/6;在图像AI识别中 , 龙加智能达到Nvidia Tesla V100相同的处理能力 , 而响应时间在0.12ms以下 , 是V100的1%左右 。 除了在语音和图像识别 , 龙加智联合运营商 , 能将5G边缘云计算的响应速度降低至0.12ms , 将整个5G边缘云到终端的通讯计算速度的延时控制在10ms内 。
之所以能做到这样的性能 , 主要得益于龙加智独特的芯片架构 。 龙加智CEO胡遇杰介绍 , 该芯片采用了分布式存储架构、双片上网络结构、伪长指令集的处理器、控制回路和数据回路分割等技术、架构 。 这使得龙加智的AI芯片组可以特别高效率的利用计算单元 , 并能以很低且固定的延迟进行计算 。 “尤其在批处理数为1时(batchsize=1) , 芯片的浮点计算资源的典型利用效率接近77% 。 ”胡遇杰说 , “更高利用率意味着我们的芯片可以更小面积、更低成本 。 而且龙加智的芯片组不需要外存就可以工作 , 这样也可以节省一大块系统成本和功耗 。 ”
在AI计算平台“好用”方面 , 龙加智在芯片组的基础之上开发了专有编译器和SDK , 在兼容市面上的主流计算框架的同时 , 也支持用户自行开发芯片应用 。 此外 , 胡遇杰还透露 , 公司正在针对智慧城市等垂直应用场景开发应用模版 , 用户只需进行简单的功能需求勾选就能配置相应芯片应用 , 希望以此进一步降低AI计算平台的应用门槛 。


推荐阅读