阿里天池竞赛S1咋解决运算问题 400M就要集群

400M就要集群？不需要吧，用集群可能更慢
■网友
只有400M的数据是可以直接读到内存，用pandas处理的。如果是几十G的数据，是可以先按id将数据集切分，逐行扫描数据集，统计完各种count之后，再合并到一起。用不上集群的。kaggle上2015微软的流氓软件分类比赛，数据集我记得是有二三百G吧，winner solution的第一名就是单机处理的。
■网友
这个问题我也想问，天池这种大数据量，是用python就够用了吗，还是用spark/hadoop，用哪一种比较合适呢？

阿里天池竞赛S1咋解决运算问题

推荐阅读

白泽兽图片?白泽神兽五行属什么?

奥迪R8全新车型中国首秀杀入市场，或触发超跑市场新一轮竞争

「乐枋文化」千万不要正面撞上，吵架时火力全开的星座

占星的少女|也从不主动攻击他人的3个星座，即使内心再生气

【农村小王爱吃鬼】素饺子做法集锦

每日科学■会变更好看？马斯克透露或对电动皮卡外观进行调整

数据安全|李佳琦方回应数据造假:将追究造谣者法律责任

「佳作有约」让你下你就下，信不？说个笑话也生气，开电梯的，我让你上你就上

冬天生姜怎样储存不会烂

和德国老公在中国领了结婚证，如果没领德国的结婚证，对我们有影响吗

NIODay 2020 媒体采访李斌回应了关于蔚来的部分问题

九游网|《元气众生录》宝石攻略职业宝石搭配推荐

【真实真心姐姐】这些坏习惯，容易加快皮肤衰老，夏天

ar导航和普通导航哪个更费流量 ar实景导航收费吗

#余文林整形博士#造一个耳朵，需要取多少条肋软骨？

磊磊趣闻@老丈人说：我家有规矩，吃饭时不能说话，笑话：第一次去nv友家

牛油果的正确吃法图片;牛油果怎么吃最好？

巴菲特的弟弟|沪指30年首次大修订：剔除ST，引入科创板！，股市又一利好!

「防控」广州市各区新型冠状病毒肺炎疫情防控分区分级情况

红尖椒文化|让少奶奶李纨，输给了丫头袭人，贾府中的咄咄怪事：两场宴席