ARM|ARM连发四款Mali GPU:一律全新架构、性能飞跃最多6倍
除了面向64位移动计算的Cortex-X2、Cortex-A710、Cortex-A510三款全新CPU IP,ARM今天还带来了多达四款新的移动GPU IP,同样启用新的命名规则,分别是Mali-G710、Mali-G610、Mali-G510、Mali-G310 。
G710、G510、G310分别定位旗舰、主流、入门级市场,依次取代现有的G78、G57、G310 。
G610其实和G710是一回事儿,只是核心数较少时单独使用的名字 。
文章图片
文章图片
这是ARM Valhall GPU架构的第三代产品,也是第一次完整覆盖高中低端各个领域 。
搭配同时发布的Cortex-X2/A710/A510 CPU、CoreLink CI-700一致性互连技术、CoreLink NI-700芯片网络一起,它们可以构成完整、强大的SoC解决方案 。
文章图片
文章图片
虽然架构变化不大,只是继续优化提升,但是这一代Mali GPU的性能进步还是很可观的:
【ARM|ARM连发四款Mali GPU:一律全新架构、性能飞跃最多6倍】G710号称综合性能提升20%、机器学习性能提升35%、纹理性能提升50%、能效提升20% 。
G510综合性能提升100%、机器学习性能提升100%、能效提升22% 。
G310虽然定位最低但变化最大,号称纹理性能提升多达6倍、Vulkan性能提升4.5倍、安卓UI内容性能提升2倍 。
文章图片
文章图片
G710的执行引擎设计和G77、G78十分相似,变化更多是一些细节 。
wavefront/warp大小从8翻番到了16,而且每个执行引擎有两个数据路径,最终形成每个核心32个FMA 。
ISA指令集也有了不小的改进,可以更好地满足Vulkan等现代GPU的需求,但暂无细节 。
G710还新增了一个执行引擎,每个着色器核心的计算性能因此翻番,同时每核心每时钟周期的不同吞吐量也有4倍、8倍的增加 。
纹理单元也是全新的,每时钟周期可以处理最多80亿纹理,再加上面积优化,单位密度纹理性能提升了50% 。
16宽度执行单元单实例变成了4宽度四实例,整体吞吐量不变,但是资源分配更合理,效率更高 。
新的执行引擎每核心每时钟周期FMA翻了一番,同时功耗也优化降低了20% 。
另外,传统的工作管理器(Job Manager)变成了新的“指令流前端”(Command Stream Frontend),负责调度和处理draw-call,还第一次带来了固件层,与硬件紧密配合处理主机需求 。
G710可以配置8-16个不同核心数,G610则是最多6个核心,另外二级缓存可以配置2个或4个区块,每个区块256KB或者512KB,也就是整体最小512KB,最多2MB 。
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
文章图片
G510支持2-6个核心配置,每核心每执行单元的配置也可以定制,纹理单元也大大加强 。
执行引擎还是2个,但也可以配置为只用1个,每时钟周期64 FMA会因此减少到48 FMA 。
推荐阅读
- ARM|ARM中国区CEO表态:NVIDIA收购ARM失败是好事
- ARM|4000多亿的ARM交易被搅黄 NVIDIA黄仁勋谈笑风生:改变不了什么
- Intel|x86被ARM取代 Intel自信比苹果自研处理器更好
- ARM|Intel杀疯了!有兴趣收购ARM
- ARM|老黄情何以堪!Intel喊话:我们想买下ARM
- 鸿蒙|HarmonyOS 2加持!华为智慧屏简易模式上线:新增四大快捷入口
- ARM|NVIDIA 400亿美元收购一旦被拒 ARM:我们下场会很惨
- Windows|ARM Win10/Win11项目越做越好:已有35款手机可启动运行
- AMD|AMD连发两款专业显卡:6nm工艺、功耗只有25W
- AMD|AMD确认:特斯拉四款Model车型都用上锐龙芯片了