大多数开发人员都弄错的Hive与MapReduce小文件合并问题( 二 ) _Hive

废话不多说，上结果请看：

文章插图

文章插图

结果分析：这下好了，全是大文件，44大文件，每个大文件都是辣么大，最小的都是48Mb 。为啥加了split参数以后就生效了呢。前面单独合并小文件参数没啥效果呢？网上随便搜一下，都是这种配置这种参数的？

-- 设置小文件合并set hive.merge.mapfiles=true;set hive.merge.mapredfiles=true;set hive.merge.size.per.task = 256000000 ;set hive.merge.smallfiles.avgsize= 256000000 ;

4.答案揭晓因为设置上面四个参数，看上去规定了map结束，MR结束合并文件，如果文件平均小于smallfiles.avgsize启动一个新的MRj进行文件的二次合并。如果启动mr合并文件，没有问题。但是忽略了一个问题，你重新启动一个mr合并文件，这个mr是不是需要进行文件split，你这个参数搞小了，那就会产生很多task，很多map，比如很多小文件就是一个map，最终还是产生很多小文件（因为合并小文件的mr只有map）。所以必须要配合split参数才有用。具体split参数使用，参考我其他博客。
本文转载自微信公众号「涤生大数据