『阿里云云栖号』阿里云云效团队在家高效开发实录，战“疫”期( 四 ) 背景在数据科学世界

测试机器配置是500G内存、96核、NVIDIAV100显卡。 Mars和DASK在GPU上都使用RAPIDS执行计算。
Groupby数据有三个规模，分别是500M、5G和20G 。
查询也有三组。
查询一df=read_csv('data.csv')df.groupby('id1').agg({'v1':'sum'})查询二df=read_csv('data.csv')df.groupby(['id1','id2']).agg({'v1':'sum'})查询三df=read_csv('data.csv')df.gropuby(['id6']).agg({'v1':'sum','v2':'sum','v3':'sum'})数据大小500M ，性能结果

文章图片
数据大小5G ，性能结果

文章图片
数据大小20G ，性能结果

文章图片
数据大小到20G时， pandas在查询2会内存溢出，得不出结果。
可以看到，随着数据增加， Mars的性能优势会愈发明显。
得益于GPU的计算能力， GPU运算性能相比于CPU都有数倍的提升。如果单纯使用RAPIDScuDF ，由于显存大小的限制，数据来到5G都难以完成，而由于Mars的声明式的特点，中间过程对显存的使用大幅得到优化，所以整组测试来到20G都能轻松完成。这正是Mars+RAPIDS所能发挥的威力。
Join测试查询：
x=read_csv('x.csv')y=read_csv('y.csv')x.merge(y,on='id1')测试数据x为500M ， y包含10行数据。

文章图片
总结【『阿里云云栖号』阿里云云效团队在家高效开发实录，战“疫”期】RAPIDS将Python数据科学带到了GPU ，极大提升了数据分析和处理的效率。 Mars的注意力更多放在并行和分布式。相信这两者的结合，在未来会有更多的想象空间。

『阿里云云栖号』阿里云云效团队在家高效开发实录，战“疫”期( 四 )

推荐阅读

《骄阳伴我》首播，肖战表现惊艳，这次，央视好像又淘到宝了

澄海3c怀特之腿怎么用怀特之腿怎么用

胆管息肉有什么危害

华夏航空预计上半年净利下降超九成，6月航班量正增长

当官|鲁迅的后人现状如何？儿子当官，孙子是我们熟悉的大明星！

「人民网」商务部：打通运输“大动脉” 畅通物流“微循环”

海清|心疼！海清自曝骨囊肿，不能站立半夜疼醒，16岁儿子懂事背妈妈

烹饪|三伏天，遇到此菜别手软，钙是鸡肉7倍，现在正当季，蒸包子真香

神叨酱塔罗牌占卜|神叨酱：8.12日心灵运势指引

Ts娱乐圈|希望她的团队能清醒一点吧，太急功近利了，张艺凡热搜不断

广东男篮@48分惨案！广东残暴继续：全队33助攻+外援仅6分钟，送钟南山大礼

科学家@地底新发现，4000米深处发现“类人类”生物！或许威胁了人生生存？

深港科技说堪称经典中的经典，致敬时代？他们都说这款iPhone

『央视』中国方舱CT驰援智利抗疫前线

现代快报|九月英仙座ε流星雨9日迎来极大，月光或影响观测

五招减肥高效的健美操纤腰翘臀变S美人

『皇家马德里』巨资加神锋！昔日宝贝成添头，皇马锁定新巨星

冷无情|王一博的盛世美颜之【这就是街舞3】篇

怎样评价马克西姆的新专辑《mezzo e mezzo》

小熊科技|体积小，功能全！摩米士MOMAX氮化镓GaN快充充电器体验