阿里天池竞赛S1咋解决运算问题

400M就要集群? 不需要吧,用集群可能更慢
■网友
只有400M的数据是可以直接读到内存,用pandas处理的。如果是几十G的数据,是可以先按id将数据集切分,逐行扫描数据集,统计完各种count之后,再合并到一起。用不上集群的。kaggle上2015微软的流氓软件分类比赛,数据集我记得是有二三百G吧,winner solution的第一名就是单机处理的。
■网友
这个问题我也想问,天池这种大数据量,是用python就够用了吗,还是用spark/hadoop,用哪一种比较合适呢?


    推荐阅读