Apache Hudi与Apache Flink集成( 三 ) ApacheHudi是由Uber开发并开源的数据湖

以map方法为例，在Spark的实现类 HoodieSparkEngineContext中， map方法如下：
@Overridepublic List map(List data, SerializableFunction func, int parallelism) {return javaSparkContext.parallelize(data, parallelism).map(func::apply).collect();}在操作List的引擎中其实现可以为（不同方法需注意线程安全问题，慎用parallel()）：
@Overridepublic List map(List data, SerializableFunction func, int parallelism) {return data.stream().parallel().map(func::apply).collect(Collectors.toList());}注：map函数中抛出的异常，可以通过包装SerializableFunction func解决.
这里简要介绍下 SerializableFunction:
@FunctionalInterfacepublic interface SerializableFunction extends Serializable {O apply(I v1) throws Exception;}该方法实际上是 java.util.function.Function 的变种，与java.util.function.Function 不同的是 SerializableFunction可以序列化，可以抛异常。引入该函数是因为JavaSparkContext#map()函数能接收的入参必须可序列，同时在hudi的逻辑中，有多处需要抛异常，而在Lambda表达式中进行 try catch 代码会略显臃肿，不太优雅。
6.现状和后续计划6.1 工作时间轴2020年4月， T3出行（杨华@vinoyang ，王祥虎@wangxianghu）和阿里巴巴的同学（李少锋@leesf）以及若干其他小伙伴一起设计、敲定了该解耦方案；
2020年4月， T3出行(王祥虎@wangxianghu)在内部完成了编码实现，并进行了初步验证，得出方案可行的结论；
2020年7月， T3出行(王祥虎@wangxianghu)将该设计实现和基于新抽象实现的Spark版本推向社区（HUDI-1089）；
2020年9月26日，顺丰科技基于T3内部分支修改完善的版本在 Apache Flink Meetup（深圳站）公开PR, 使其成为业界第一个在线上使用Flink将数据写hudi的企业。
2020年10月2日， HUDI-1089 合并入hudi主分支，标志着hudi-spark解耦完成。
6.2 后续计划1）推进hudi和flink集成
将flink与hudi的集成尽快推向社区,在初期，该特性可能只支持kafka数据源。
2）性能优化
为保证hudi-spark版本的稳定性和性能，此次解耦没有太多考虑flink版本可能存在的性能问题。
3）类flink-connector-hudi第三方包开发
将hudi-flink的绑定做成第三方包，用户可以在flink应用中以编码方式读取任意数据源，通过这个第三方包写入hudi 。
原文链接：;utm_medium=referral
如果觉得本文对你有帮助，可以评论关注支持一下

上一页
1
2
3
下一页

推荐阅读

「全家福」赌王大房唯一儿子！生前全家福曝光五官最像爸，赌王穿白衬衣满脸慈笑

手机中国华为Y9s上市麒麟710F芯片+4000mAh电池售1870元

端午节艾草的功效与作用端午节艾草是干什么用的

小米|小米“年轻人的第一套公寓”来了卢伟冰：这才是最幸福的居住

奶粉一段二段三段有何不同

Sincere小李|可以选择购买的机器，论现在5000元档位

消化疾病|专家解读：生活中如何预防肝病的出现，你要记住以下几点可避免

中国古代名人传，唐房玄龄房玄龄传

战略|今年以来38家A股国企完成重大重组

「车家号」最高综合优惠8万，凯迪拉克闪亮2020中国春季云车展

世界5G网速排行：我国5G比韩国慢，不如美国，算5G强国吗？

街拍|街拍：时尚紧致的小姐姐，搭配打底裤，潇洒有型！

北京哪里可以吃到红楼中描写的美食

独一无二的扎心网名有哪些？

大河财立方|共建河南智慧银行标杆，平顶山银行与腾讯云达成战略合作

一个醒悟的丈夫，把母亲当成“外人”后，挽救了和妻子的婚姻

卡贴机什么意思啊

逸仙谈历史|是谁摧残了他的童心，造就了他暴戾的性格？，秦始皇悲惨的童年

医生|做一次CT，会有多大的致癌率？医生给出的答案，但愿你能接受

唤醒不忘初心名族风情有趣文化、寻觅初夏美食风味，塞上江南

FlinkSQL 动态加载 UDF 实现思路

万字干货还原美团Flink实时数仓建设

网易云音乐基于Flink实时数仓实践

flink消费kafka的offset与checkpoint

唯品会实时平台架构-Flink、Spark、Storm

Flink的DataSet基本算子总结

Flink中parallelism并行度和slot槽位的理解

Flink到底能不能实现exactly-once语义？

Flink流处理应用在IDEA中的执行流程分析

在IDEA中执行Flink应用时如何访问Dashboard？