OPPO|算力超苹果A15!OPPO首款自研芯片发布:四大核心问题揭秘( 三 )


选择6nm工艺,也给OPPO带来了很多的难题 。
比如,MariSilicon X需要峰值吞吐量非常高的MIPI接口 。如果选择12nm工艺,虽然很容易能够找到第三方MIPI接口IP,但能效远超预期 。虽然6nm工艺节点上也有一些第三方MIPI接口IP,但是可选择范围较小,且依然是满足不了OPPO估算的数据量要求 。因此,OPPO的芯片研发团队最终选自了自研MIPI IP 。
“用12nm可以更容易的做出一颗商用的芯片 。但是,我们发现用12nm做完之后在很多场景下出来的效果,可能还不如之前单纯靠5nm SoC做出来的整体效果,那么增加一颗NPU芯片就没有意义 。那就丧失了我们做一颗芯片的初心和原点了 。“姜波坦言 。
四、MariSilicon X有何过人之处?
对于MariSilicon X这款芯片的优势,可以总结为以下几大核心能力突破:

OPPO|算力超苹果A15!OPPO首款自研芯片发布:四大核心问题揭秘
文章图片

1、核心自研IP加持,带来极致能效比
据介绍,MariSilicon X的AI算力可达18TOPS@int8(72TOPS@int4 equivalent),高于苹果A15的15.8TOPS 。在供强大AI算力的同时,MariSilicon X功耗也得到了很好的控制,其能效比达到惊人的11.6TOPS/W 。

OPPO|算力超苹果A15!OPPO首款自研芯片发布:四大核心问题揭秘
文章图片

要知道,目前绝大多数NPU能效比都在10TOPS/W以内 。比如IBM今年初推出的基于7nm工艺的“全球首款”高能效AI芯片,其在int4 精度下的能效为 8.9TOPS/W;7nm NVIDIA A100 GPU在int4精度下的能效比为 3.12TOPS/W;7nm的联发科处理器(应该是天玑1200)在int8精度下能效比为3.42TOPS/W 。

OPPO|算力超苹果A15!OPPO首款自研芯片发布:四大核心问题揭秘
文章图片

▲IBM 7nm高能效AI芯片与7nm芯片性能及能效比参数对比
姜波强调,:“对于手机NPU来说,AI算力的提升并不是难点,因为这是可以通过增加NPU的面积把算力堆起来的 。但是,手机内部的空间是有限的,并且有着严苛的功耗及热性能的限制,所以高能效比才是关键 。而要想实现11.6TOPS/W能效比则是非常难的 。

OPPO|算力超苹果A15!OPPO首款自研芯片发布:四大核心问题揭秘
文章图片

“而且这个能效比是基于随机生成图片(人眼难以识别的)实测得到的,如果是基于现实世界里的人像、风景等真实的图片进行处理,这个能效比将超过12TOPS/W 。”
虽然,MariSilicon X 的6nm工艺所带来的提升,也是其高能效比的一个因素,但是更为关键的还是MariSilicon X当中NPU单元并没有采用第三方的NPU IP,而是采用了OPPO自研的MariNeuro IP,以达到OPPO需要的最优能效比 。

OPPO|算力超苹果A15!OPPO首款自研芯片发布:四大核心问题揭秘
文章图片

那么,之前在骁龙888上只能跑2fps、功耗达到1.7W的OPPO自研的AI降噪算法在MariNeuro NPU上能有多大的提升呢?答案是速度提升了20倍达到了40fps,使得OPPO自研AI降噪算法可以应用到视频降噪当中,同时功耗仅有800mW,能效比更是提升了40倍 。显然OPPO自研影像NPU所带来的实际提升是非常惊人的 。

OPPO|算力超苹果A15!OPPO首款自研芯片发布:四大核心问题揭秘
文章图片

△基于MariSilicon X的4K Ultra HDR视频降噪效果

OPPO|算力超苹果A15!OPPO首款自研芯片发布:四大核心问题揭秘
文章图片

△基于MariSilicon X的4K AI夜景视频效果
2、多级专用高速内存系统
除了NPU本身的架构使得它能够有更高的能耗效率和更高的利用率之外,内存子系统也是极为关键的,因为内存和运算对于AI整个系统是相辅相成的,如果内存变成瓶颈,形成“内存墙”的话,即使有再高的算力也无法发挥 。
所以,OPPO还为MariNeuro NPU定制了一个Tb/秒级的片上内存子系统,这也使得NPU架构设计在与算法紧密耦合的同时,内存系统也是根据算法和场景要求进行相应定制优化的 。
姜波解释称:“我们根据自己的算法和网络模型,我们知道它的网络复杂度有多少,需要多大容量和速度的片上内存去处理,才能达到一个最优的目标 。其数据传输速度可达数万亿比特/秒(Tb/s),远高于外部的DDR内存 。”


推荐阅读