AMD|扬言秒杀NVIDIA的国产芯片公司 快被现实打趴了( 三 )


尤其是编译器相关的开发难度,以及针对不同模型不依赖手工优化,仅通过编译器完成自动化性能优化的模型泛化能力,这个能力的缺失几乎成了大多数AI芯片停留在“送测”而不能获取订单的核心原因 。
这些是所有英伟达的挑战者面对的技术难题,同时还有人才的挑战 。
马超和大多数AI芯片的从业者有相同的观点,“要打造一个完整易用的AI软件栈,必须要有一个不仅熟悉驱动、固件等基础软件,既能够从上向下看,也要能从下往上看,对整个AI软件生态有全面认识,有足够经验和能力的软件大牛 。”
“AI芯片火起来之前,在国内做编译器是个非常冷门的职业 。”陈俊说:“编译器是AI芯片软件栈中重要的部分,国内芯片相关软件人才非常匮乏 。”
手握入场券,败倒在客户「变态」的模型里
AI芯片创业公司软件栈的问题并非无解,已经在百度落地的昆仑芯,以及在字节跳动落地的希姆计算,是国内为数不多被商业市场检验通过的AI芯片公司,摸索出了一条具备可复制性的商业化道路 。
熟悉希姆计算的王雷(化名)说,“软件都是和场景相关的,想要把软件做好,只能接近客户,深入业务 。不仅要和客户负责系统的人谈,还要和运维、业务场景、算法的人深入沟通,否则很难把软件做好 。”
“想把软件做好哪有捷径可以走,国内AI芯片公司都在一个起跑线上,也都有互联网大厂的投资人,希姆计算能稍微跑的快一点,还是负责市场落地的人天天泡在客户办公室和工厂里磨出来的,但即便这样,也不能保证未来的成功 。”王雷认为 。
但AI芯片公司也不是轻轻松松就能获得与客户深入沟通的机会 。一般的情况是,有需求的公司(比如BAT和移动运营商)会公开招标,AI芯片公司寻求合作,经过初步筛选之后,符合需求的AI芯片公司可以送测产品,在现场运行客户给的AI模型 。
“很多公司连编译那一关都过不去 。”王雷说,“即便能编译,不少公司声称算力是英伟达同级别产品的2倍,实际还不到其性能的1/4 。”
张伟表示,“主要还是因为编译器做的不够好,通常都是依据芯片存算特征针对特定的模型手动做了优化,不具备泛化能力 。所以在遇到客户特别‘变态’模型的时候,就会遇到困难,就算手动编译通过,性能也会受限 。比如一般情况下,96*96尺寸的图片,可以顺利编译,吞吐性能还不错,但客户会根据自身业务需要对输入的图片尺寸进行调整,比如调整到1280*720,那性能就会受到大幅度影响,甚至编译不通过 。更有甚者,模型结构都会发生诸如基础算子和逻辑的变化,那编译器的泛化能力是很难支撑直接跑起来的 。”
这就是AI芯片编译器的另一个难点所在,由于客户的AI模型与其业务密切相关,涉及商业机密,因此并不会直接把模型给芯片公司,AI芯片公司很难提前做有针对性的优化 。
但即便进展更快一点,昆仑芯也需要更多时间完善其软件栈 。张伟了解的情况是,昆仑芯的AI芯片在搜索场景对比英伟达的产品有一倍多的性能优势,但在其它场景优势很小甚至没有优势 。
“有听到昆仑芯的客户反馈离开了昆仑芯的人帮忙调试,芯片还是很难用起来 。”陈俊说,“软件还是不够好用,所有AI芯片公司都还需要时间去打磨,这需要一个过程 。”
这对所有云端AI芯片公司而言都是一个需要花非常多时间和精力的工作,在落地的过程中可能需要为客户开发数百项特性,这是在设计硬件和开发软件栈之初都无法完全明确的需求,甚至都意识不到用户会有哪些应用场景和需求 。
AMD|扬言秒杀NVIDIA的国产芯片公司 快被现实打趴了
文章图片

今年交卷,2024年开始淘汰
云端AI芯片公司们的落地竞赛已经开启 。马超认为,AI芯片公司今年下半年是给投资人和市场交答卷的时候了,今年如果还不能上量落地,可能今年底明年初就会有公司开始收缩 。
陈俊认为,云端推理AI芯片的格局明年会更加明朗 。
王雷则认为,即便是融资几十亿的AI芯片公司,按照千人规模,人均百万的薪资计算,融资最多能撑到2024年,那时候就能看到真正裸泳的人 。
想要在AI市场的竞争中不被淘汰,产品和选择一样重要 。AI云端芯片公司们优先把目光投向了采购规模在亿美元级别头部互联网公司以及政府的项目 。


推荐阅读