都说spark那么牛，有没有啥坑啊( 四 ) 您好

2.HiveConf的初始化过程占用太多时间
频繁的hiveConf初始化，需要读取core-default.xml,hdfs-default.xml,yarn-default.xml
,mapreduce-default.xml,hive-default.xml等多个xml文件，而这些xml文件都是内嵌在jar包内的。
第一，解压这些jar包需要耗费较多的时间，第二每次都对这些xml文件解析也耗费时间。

3.广播broadcast传递的hadoop configuration序列化很耗时
lconfiguration的序列化，采用了压缩的方式进行序列化，有全局锁的问题
lconfiguration每次序列化，传递了太多了没用的配置项了，1000多个配置项，占用60多Kb。我们剔除了不是必须传输的配置项后，缩减到44个配置项，2kb的大小。

4.对spark广播数据broadcast的Cleaner的改进
由于SPARK-3015 的BUG，spark的cleaner 目前为单线程回收模式。
大家留意spark源码注释

其中的单线程瓶颈点在于广播数据的cleaner，由于要跨越很多台机器，需要通过akka进行网络交互。
如果回收并发特别大，SPARK-3015 的bug报告会出现网络拥堵，导致大量的 timeout出现。
为什么回收量特变大呢？其实是因为cleaner 本质是通过system.gc（）,定期执行的，默认积累30分钟或者进行了gc后才触发cleaner,这样就会导致瞬间，大量的akka并发执行，集中释放，网络不瞬间瘫痪才不怪呢。
但是单线程回收意味着回收速度恒定，如果查询并发很大，回收速度跟不上cleaner的速度，会导致cleaner积累很多，会导致进程OOM（YDB做了修改，会限制前台查询的并发）。
不论是OOM还是限制并发都不是我们希望看到的，所以针对高并发情况下，这种单线程的回收速度是满足不了高并发的需求的。
对于官方的这样的做法，我们表示并不是一个完美的cleaner方案。并发回收一定要支持，只要解决akka的timeout问题即可。所以这个问题要仔细分析一下，akka为什么会timeout，是因为cleaner占据了太多的资源，那么我们是否可以控制下cleaner的并发呢？比如说使用4个并发，而不是默认将全部的并发线程都给占满呢？这样及解决了cleaner的回收速度，也解决了akka的问题不是更好么？
针对这个问题，我们最终还是选择了修改spark的ContextCleaner对象，将广播数据的回收改成多线程的方式，但现在了线程的并发数量，从而解决了该问题。

都说spark那么牛，有没有啥坑啊( 四 )

推荐阅读

娱悦欢百年|甜美的紧身裙女神，小姐姐打造完美曲线

北方方言|“南腔北调”，为何南方是“腔”，北方是“调”？

阿尔山在哪个省阿尔山在哪个省什么位置

铭赞网络|陕西恒硕特钢分享下半年要关注20G无缝钢管钢材库存变化节奏

中国已有17省区市委托投资基本养老保险基金8580亿元

充电器|PowiGaN芯片是啥？充电器为啥不能少了它？

秋叶援智能家居万物互联，从热水器开始—圈厨热水器体验

阴道炎怎么检查

类节目|张晋含泪告白蔡少芬《妻子4》温暖收官赚足眼泪

爱卡汽车环比增长15.4%，奇瑞集团四月销量超4万

笑看尘世|一个95后佛系老人家日常出行装备，透露着贫穷气息的EDC

中国|祝贺！广西2家企业入围2020中国民营企业500强

染色体|性别真的只有两种吗？

杭州虎跑泉西湖之泉以虎跑为最西山之茶以龙井为最

展现出|路人街拍，美女搭配长裙，展现出了几分飘逸的美感

社保局每个月打入退休人员医保卡的钱，会随养老金的上调增加吗？

中超▲北京山东云南出局：上海承接中超比赛，赛会制四大地点基本确定

星座小可爱|财运翻倍，财源广进赚大钱的生肖，9月

广深@中国发展“最稳定”的2座新一线城市，霸主地位比肩北上广

红茶喝多了会中毒吗,喝红茶为什么减肥