GPGPU流式多处理器架构及原理

作者 陈巍 博士:存算一体/GPU架构和AI专家,高级职称 。中关村云计算产业联盟,中国光学工程学会专家,国际计算机学会(ACM)会员,中国计算机学会(CCF)专业会员 。
作者 耿云川 博士:资深SoC设计专家,软硬件协同设计专家,擅长人工智能加速芯片设计 。
流式多处理器(Stream Multi-processor,SM)是构建整个 GPU的核心模块(执行整个 Kernel Grid),一个流式多处理器上一般同时运行多个线程块 。每个流式多处理器可以视为具有较小结构的CPU,支持指令并行(多发射) 。流式多处理器是线程块的运行载体,但一般不支持乱序执行 。每个流式多处理器上的单个Warp以SIMD方式执行相同指令 。

GPGPU流式多处理器架构及原理

文章插图
图 3-1 流式多处理器在GPU架构中的位置(以NVIDIA Tesla架构为例,修改自NVIDIA)
3.1 整体微架构图 3-3是流式多处理器(SM,AMD称之为计算单元)微架构(根据公开文献和专利信息综合获得) 。
流式多处理器按照流水线可以分为SIMT前端和SIMD后端 。整个流水线处理划分为六个阶段,包括取指、译码、发射、操作数传送、执行与写回 。
GPGPU流式多处理器架构及原理

文章插图
图 3-2 GPGPU的流式多处理器结构划分
SIMD即单指令多数据,采用一个控制器来控制多组计算单元(或处理器),同时对一组数据(向量)中的每一个数据分别执行相同的操作从而实现空间并行性计算的技术 。
SIMT即单指令多线程,多个线程对不同的数据集执行相同指令 。SIMT的的优势在于无须把数据整理为合适的矢量长度,并且SIMT允许每个线程有不同的逻辑分支 。
按照软件级别,SIMT层面,流式多处理器由线程块组成,每个线程块由多个线程束组成;SIMD层面,每个线程束内部在同一时间执行相同指令,对应不同数据,由统一的线程束调度器(Warp scheduler)调度 。
一般意义上的CUDA核,对应于流处理器(SP),以计算单元和分发端口为主组成 。
线程块调度程序将线程块分派给 SIMT 前端,线程在流式多处理器上以Warp为单位并行执行 。
GPGPU流式多处理器架构及原理

文章插图
图 3-3 GPGPU的流式多处理器微架构
流式多处理器中的主要模块包括:
取指单元(I-Fetch):负责将指令请求发送到指令缓存 。并将程序计数器 (PC)指向下一条指令 。
指令缓存(I-Cache):如来自取指单元的请求在指令缓存中被命中,则将指令传送给译码单元,否则把请求保存在未命中状态保持寄存器(MSHR)中 。
译码单元(Decode):将指令解码并转发至I-Buffer 。该单元还将源和目标寄存器信息转发到记分牌,并将指令类型、目标地址(用于分支)和其他控制流相关信息转发到 SIMT 堆栈 。
SIMT 堆栈(SIMT Stack):SIMT堆栈负责管理控制流相关的指令和提供下一程序计数器相关的信息 。
记分牌(Scoreboard):用于支持指令级并行 。并行执行多条独立指令时,由记分牌跟踪挂起的寄存器写入状态避免重复写入 。
指令缓冲(I-Buffer):保存所有Warp中解码后的指令信息 。Warp 的循环调度策略决定了指令发射到执行和写回阶段的顺序 。
后端执行单元:后端执行单元包括CUDA核心(相当于ALU)、特殊功能函数、LD/ST单元、张量核心(Tensor core) 。特殊功能单元的数量通常比较少,计算相对复杂且执行速度较慢 。(例如,正弦、余弦、倒数、平方根) 。
共享存储:除了寄存器文件,流式多处理器也有共享存储,用于保存线程块不同线程经常使用的公共数据,以减少对全局内存的访问频率 。
3.2 取指与译码
GPGPU流式多处理器架构及原理

文章插图
图 3-4 GPU执行流程(修改自 GPGPU-Sim)
取指-译码-执行,是处理器运行指令所遵循的一般周期性操作 。
取指一般是指按照当前存储在程序计数器(Program Counter,PC)中的存储地址,取出下一条指令,并存储到指令寄存器中的过程 。在取指操作结束时,PC 指向将在下一个周期读取的下一条指令 。
译码一般是指将存储在指令寄存器中的指令解释为传输给执行单元的一系列控制信号 。
GPGPU流式多处理器架构及原理

文章插图
图 3-5 取指译码结构
在GPGPU中,译码之后要对指令进行调度,以保证后继执行单元的充分利用 。这一调度通过线程束调度器(Warp Scheduler)实现 。


推荐阅读