大数据数据流技术在GPU和大数据处理中的应用( 六 )


GPMR是面向GPU集群的MapReduce框架 。 该方案依据GPU集群规模将大规模的输入数据分割成近似等大的数据块 , 通过在集群内进行数据聚合 , 可以降低节点内计算器件之间和MapReduce任务中的通信 。 但是 , 该方案只能支持集群中每节点只有一个GPU的拓扑 , 且只支持定长的输入数据 , 这为该方案的适用性增加了不必要的约束 。 MGMR针对GPMR的问题 , 实现了一个支持单节点多GPU且面向GPU集群的MapReduce框架 。 该方案在Mapper产生中间键值对 , 采用一种样本排序算法将这些中间结果散列至多块GPU上进行Reduce处理 。 但该方案在存在数据倾斜的情况下 , 可能出现较为严重的负载均衡问题 。 MGMR没有将CPU与GPU的计算进行进一步的并行 , CPU的利用率较低 。 参考文献[31]对MGMR进行了进一步的改进 , 采用流水线方式对CPU和GPU的计算和处理进行重叠 , 提高了处理效率 。
总体来看 , GPU在大数据方面的运用还不是非常理想 , 主要体现在2个方面:一个是目前主要使用GPU编程模型完全重写MapReduce计算模型 , 从而构建面向GPU的MapReduce框架 , 这种方式难以与现有的主流大数据软件生态结合 , 无法支持现有大数据应用的平滑迁移 , 也无法很方便地对GPU环境下的大数据应用进行扩展 , 限制了应用推广的前景;另一个是对GPU的使用粒度还比较粗放 , 没有充分发挥GPU的硬件特性 , 目前还很少有研究关注利用GPU的众核计算单元实施向量化运算 , 从而提高大数据分析效能 , 也缺乏对显存使用和优化方式的研究 。 在后续的工作中 , 对GPU的细粒度使用以及与大数据生态环境结合的研究内容可能成为新的增长点 。
5 结束语 数据流技术在计算机硬件体系结构和软件编程模型方面都具有十分重要的应用 , 现代GPU在硬件结构和编程模型方面都借鉴了数据流计算的思想 , 并且在人工智能和高性能计算领域获得了显著的成果 。 当前典型的大数据处理框架都采用了数据流的思想来提高并发效率 。 随着大数据智能时代应用对系统在高吞吐和低时延等方面的要求越来越高 , 基于GPU的大数据处理器系统将成为未来发展的趋势 。 目前 , 部分大数据计算系统已经融合了对GPU的支持 , 其目的就是利用GPU的强大计算能力为大数据应用服务 。 因此 , 基于数据流技术 , 研究面向CUPGPU异构系统的大数据处理技术和系统 , 满足大数据处理在高吞吐和低时延等多方面的需求 , 具有十分重要的现实意义 。
大数据期刊
《大数据(Big Data Research , BDR)》双月刊是由中华人民共和国工业和信息化部主管 , 人民邮电出版社主办 , 中国计算机学会大数据专家委员会学术指导 , 北京信通传媒有限责任公司出版的期刊 , 已成功入选中文科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊 , 并被评为2018年国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊 。

大数据数据流技术在GPU和大数据处理中的应用
本文插图
关注《大数据》期刊微信公众号 , 获取更多内容


推荐阅读