linux内核|6中的统一内存模型，CUDA( 三 ) 转自《Linux阅马场》白嘉庆CUDA介绍

将具有复杂数据结构的代码移植到GPU上曾经是一项艰巨的任务，但是统一内存模型使此操作变得非常容易。我希望统一内存模型能够为CUDA程序员带来巨大的生产力提升。 UnifiedMemorywithC++
统一内存模型确实在C++数据结构中大放异彩。 C++通过带有拷贝构造函数（copyconstructors）的类来简化深度复制问题。拷贝构造函数是一个知道如何创建类所对应对象的函数，拷贝构造函数为对象的成员分配空间并从其他对象复制值过来。 C++还允许new和delete这俩个内存管理运算符被重载。这意味着我们可以创建一个基类，我们将其称为Managed ，它在重载的new运算符内部使用cudaMallocManaged() ，如以下代码所示。 classManaged{public:void*operatornew(size_tlen){void*ptr;cudaMallocManaged(&ptr,len);cudaDeviceSynchronize();returnptr;}voidoperatordelete(void*ptr){cudaDeviceSynchronize();cudaFree(ptr);}};
【linux内核|6中的统一内存模型，CUDA】然后，我们可以让String类继承Managed类，并实现一个拷贝构造函数，该拷贝构造函数为需要拷贝的字符串分配统一内存。 //Derivingfrom“Managed”allowspass-by-referenceclassString:publicManaged{intlength;char*data;public://Unifiedmemorycopyconstructorallowspass-by-valueString(constString&s){length=s.length;cudaMallocManaged(&data,length);memcpy(data,s.data,length);}//...};
同样，我们使我们的dataElem类也继承Managed 。 //Note“managed”onthisclass,too.//C++nowhandlesourdeepcopiesclassdataElem:publicManaged{public:intprop1;intprop2;Stringname;};
通过这些更改， C++的类将在统一内存中分配空间，并自动处理深度复制。我们可以像分配任何C++的对象那样在统一内存中分配一个dataElem 。 dataElem*data=https://pcff.toutiao.jxnews.com.cn/p/20200703/newdataElem;
请注意，您需要确保树中的每个类都继承自Managed ，否则您的内存映射中会有一个漏洞。实际上，任何你想在CPU和GPU之间分享的内容都应该继承Managed 。如果你倾向于对所有程序都简单地使用统一内存模型，你可以在全局重载new和delete ，但这只在这种情况下有作用——你的程序中没有仅被CPU访问的数据（即程序中的所有数据都被GPU访问），因为只有CPU数据时没有必要迁移数据。
现在，我们可以选择将对象传递给内核函数了。如在C++中一样，我们可以按值传递或按引用传递，如以下示例代码所示。 //Pass-by-referenceversion__global__voidkernel_by_ref(dataElem&data){...}//Pass-by-valueversion__global__voidkernel_by_val(dataElemdata){...}intmain(void){dataElem*data=https://pcff.toutiao.jxnews.com.cn/p/20200703/newdataElem;...//passdatatokernelbyreferencekernel_by_ref<<
>>(*data);//passdatatokernelbyvalue--thiswillcreateacopykernel_by_val<<
>>(*data);}
多亏了统一内存模型，深度复制、按值传递和按引用传递都可以正常工作。统一内存模型为在GPU上运行C++代码提供了巨大帮助。
这篇文章的例子可以在Github上找到。统一内存模型的光明前景
CUDA6中关于统一内存模型的最令人兴奋的事情之一就是它仅仅是个开始。我们针对统一内存模型有一个包括性能提升与特性的长远规划。我们的第一个发行版旨在使CUDA编程更容易，尤其是对于初学者而言。从CUDA6开始， cudaMemcpy()不再是必需的。通过使用cudaMallocManaged() ，您可以拥有一个指向数据的指针，并且可以在CPU和GPU之间共享复杂的C/C++数据结构。这使编写CUDA程序变得容易得多，因为您可以直接编写内核，而不是编写大量数据管理代码并且要维护在主机和设备之间所有重复的数据。您仍然可以自由使用cudaMemcpy()（特别是cudaMemcpyAsync()）来提高性能，但现在这不是一项要求，而是一项优化。

linux内核|6中的统一内存模型，CUDA( 三 )

推荐阅读

陈法拉|“气质女神”陈法拉变身女强人，晒近照红唇抢镜，被指撞脸伍咏薇

快科技8核心冲上5.3GHz：Intel至强W-10885M创移动工作站之最

发现自己越来越虚假咋办

机智萌妹最“食用”的邀请函？OPPO这次整的确实有点意思

道士下山也能玩金融？深圳某公司靠周易卜卦，10年狂揽1000亿！

生肖|8月底，爱得掏心掏肺，不肯分手，3生肖挽留旧情人，重新在乎你

C罗|为何说肌肉男不要跟NBA球星合影？看了这5张照片你就懂

吃瓜安排哥|又又又传破产？汪小菲深夜交际喝到烂醉疑似借酒浇愁

红茶绿茶哪种容易结石,红茶不适宜人群

识货■这种野草以前农民当柴火烧，如今却很“金贵”，识货人用

辛巴|赵本山女儿球球直播力挺辛巴，素颜抢镜

佣兵|第五人格IVL职业联赛秋季赛常规赛 Weibo vs GG 第一局Weibo四抓四出10：0绝杀

「李澜时尚达人」华为正式发布，爱立信等友商措手不及，华为5G凭什么能领先全球？

和平精英|“吃鸡”语言行为不当，会被禁止语音聊天？你们遇到过吗？

女装|全球最大IPO停摆后传：蚂蚁集团重新上市时间表与艰难的价值重估

太原：血管闭塞很危险，轻微症状要重视

民俗|中华文化历史久远，如何看待茶文化的未来和茶道的继承？

属狗|10月1-8号，贵人多财运旺，好运扎堆来，日子有钱有福的属相

自研芯片|苹果自研mac芯片采用5nm工艺成本低于100美元

奈斯八卦记1|越军战俘如何评价我军？，对越反击战