阿里天池竞赛S1咋解决运算问题
400M就要集群? 不需要吧,用集群可能更慢
■网友
只有400M的数据是可以直接读到内存,用pandas处理的。如果是几十G的数据,是可以先按id将数据集切分,逐行扫描数据集,统计完各种count之后,再合并到一起。用不上集群的。kaggle上2015微软的流氓软件分类比赛,数据集我记得是有二三百G吧,winner solution的第一名就是单机处理的。
■网友
这个问题我也想问,天池这种大数据量,是用python就够用了吗,还是用spark/hadoop,用哪一种比较合适呢?
推荐阅读
- |共促和谐劳动关系 工会法律和集体协商技能竞赛启动
- 阿里程序员网上招人的情况为何如此多见
- 双11阿里云搞活动,买了一个ecs云服务器,能做啥呢
- 国集|进入“国集”!今年南外学子称霸五大学科竞赛的11枚金牌,都花落谁家了?签约清北
- 天猫买东西电话,家庭住址,姓名被泄露,阿里有啥措施
- 有幸拿到腾讯与阿里巴巴两份实习,有点小纠结?
- 竞赛|清华、北大等顶尖高校纷纷抛出橄榄枝!竞赛省一考生“前途无量”
- 阿里云|【GET2020】阿里云解航:在线教育帮助线下教育一起实现教育公平和个性化
- 微软上海+阿里杭州实习offer咋选择
- 应聘阿里巴巴国际站销售员