迁移到软件计分系统意味着必须由软件预先确定计划(这样会使其变得静态 , 并有可能导致计划不尽人意) , 好处就是硬件计分板会由于权力立场和模面积变得相当昂贵 。因此 , 转向软件计分制可以实现更小 , 更省电的EU , 这反过来又体现了英特尔建立大量EU并提高整体能源效率的能力 。总体而言 , 这与NVIDIA在十年前通过开普勒对其体系结构所做的更改相对应 。他们在开普勒上同样采用了软件记分板 , 以提高能效(并同时保持高性能) 。
数字决定EU吞吐量
现在我们已经有幸看到在EU层面所做的所有更改 , 下面我们来谈谈这对于EU的实际吞吐率意味着什么 。
文章插图
从浮点开始都很简单 。尽管对ALU进行了重组 , 但每个EU的FP ALU数量仍为8 。因此 , 与Gen11一样 , 每个EU的FP吞吐量仍保持在16 FP32 ops / clock和32 FP16 ops / clock 。
另一方面 , 对于整数吞吐量 , 具有整数功能的ALU的数量相对于Gen11体系结构已从4倍增加到8倍 。结果 , 整数吞吐量也增加了一倍:Xe-LP每个时钟周期可以保存8个INT32运算或32个INT16运算 , 而Gen11分别为4和16 。但是 , 这的确意味着Xe-LP保留了Gen11的不寻常的INT32故障 。INT32速率仅是FP32速率的一半 , 而INT16速率等于FP16速率 。
最后 , 毫无疑问的是Xe-LP没有等效于张量核心或其他脉动ALU的数组来进行密集的数学运算 , 这已经成为神经网络训练推理的全部方法 。该硬件将以Xe Matrix eXtensions(XMX)的形式出现在Xe系列的后面 , 但现在Xe-LP必须与常规的EU接轨 。
文章插图
但是出于这个原因 , 英特尔在其EUSIMD中又增加了一项功能 , 即对INT8点产品的支持 。在过去的几年中 , INT8在神经网络推理中变得越来越流行 , 而点积反过来又是该过程中非常普遍的一种操作 。因此 , 增加对INT8点产品的支持使Xe-LP在这种形式的AI执行中得到了极大的推动 。INT8在使用DP4A指令之后 , 其吞吐率可以高达64 ops / clock , 是INT16吞吐率的两倍 。
Xe-LP媒体和显示控制器
接下来我们讨论最后一点:Xe-LP架构的GPU的非渲染方面--媒体和显示控制器 。此处的更改并不像对核心体系结构的更改那样引人注目 , 但是在这些功能块中进行的改进通过支持新的媒体格式和新的显示连接协议 , 有助于使整个GPU保持最新状态 。
首先 , 让我们谈谈媒体引擎 。虽说英特尔没有对Xe-LP进行大量修改 , 英特尔对引擎做了一些明智的添加 。此处的选框功能很容易支持AV1解码加速 , 使Intel成为三巨头中第一个为新编解码器添加硬件解码支持的供应商 。
文章插图
人们普遍期望 , 即将出现的免版税编解码器将成为H.264 / AVC的真正继任者 , 因为HEVC进入市场已经有很多年了(并且已经受到最近所有的GPU支持) 。编解码器附近的madcap专利使用费情况不利于其采用 。相比之下 , AV1在分发中的使用应提供与HEVC相似或略好于HEVC的质量 , 而无需支付版税 , 这使其对内容供应商的吸引力更大 。迄今为止 , AV1的一个缺点是CPU占用大量内存 。一方面是出于对电池寿命的考虑 , 而另一方面是确保流畅和无故障的播放 , 这些都使得硬件解码支持变得更加重要 。
同时 , 类似于英特尔的渲染性能目标 , 该公司一直致力于提高媒体引擎的编码和解码吞吐量 。据英特尔称 , 更新后的模块现在能够实现高达2倍的编码和解码吞吐量 。对于消费类计算机而言这似乎无关紧要 , 但是对于SG1服务器产品而言 , 它尤为重要 , 因为它将专注于批量编码 。
最后 , 在对媒体引擎进行的较小更改中 , 英特尔增加了对HDR和Dolby Vision播放的官方支持 。即使速度很慢 , 对HDR的支持将继续向PC推广 , 因此这是确保较新的PC能够处理以这些格式编码的HDR内容的重要一步 。同样值得注意的是对英特尔HEVC编码模块的改进 。为了在提高具有静态或接近静态图像内容的HEVC压缩率 , 该模块现在支持HEVC屏幕内容编码(SCC)扩展 ,
推荐阅读
- “去IOE”7年 银行IT架构国产化还需多久?
- Android Jetpack架构组件Navigation管理Fragment框架
- 微服务架构下分布式事务处理方案选择和对比
- 系统架构设计工具—SystemArchitect
- 2 「系统架构」如何使用Dockerfile制作Docker容器?
- 英特尔发布新一代架构,IPC性能领先对手AMD25%!难道又是PPT?
- 一个真实世界机器学习系统的架构
- 可视化架构设计——C4介绍
- 抢鲜!阿里架构师私藏并发编程笔记,公开前半段秒获8K标星
- 一文看懂网上支付系统架构