Flink的DataSet基本算子总结 Flink为了能够处理有边界的数据集和无

Flink为了能够处理有边界的数据集和无边界的数据集，提供了对应的DataSet API和DataStream API 。我们可以开发对应的Java程序或者Scala程序来完成相应的功能。下面举例了一些DataSet API中的基本的算子。
文章插图
下面我们通过具体的代码来为大家演示每个算子的作用。
1、Map、FlatMap与MapPartition//获取运行环境ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();ArrayList data = http://kandian.youth.cn/index/new ArrayList();data.add("I love Beijing");data.add("I love China");data.add("Beijing is the capital of China");DataSource text = env.fromCollection(data);DataSet mapData = http://kandian.youth.cn/index/text.map(new MapFunction>() { public List map(String data) throws Exception {String[] words = data.split(" ");//创建一个ListList result = new ArrayList();for(String w:words){result.add(w);}return result; }});mapData.print();System.out.println("*****************************************");DataSet flatMapData = http://kandian.youth.cn/index/text.flatMap(new FlatMapFunction() { public void flatMap(String data, Collector collection) throws Exception {String[] words = data.split(" ");for(String w:words){collection.collect(w);} }});flatMapData.print();System.out.println("*****************************************");/* new MapPartitionFunction 第一个String：表示分区中的数据元素类型第二个String：表示处理后的数据元素类型*/DataSet mapPartitionData = http://kandian.youth.cn/index/text.mapPartition(new MapPartitionFunction() { public void mapPartition(Iterable values, Collector out) throws Exception {//针对分区进行操作的好处是：比如要进行数据库的操作，一个分区只需要创建一个Connection//values中保存了一个分区的数据Iterator it = values.iterator();while (it.hasNext()) {String next = it.next();String[] split = next.split(" ");for (String word : split) {out.collect(word);}}//关闭链接 }});mapPartitionData.print();2、Filter与Distinct//获取运行环境ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();ArrayList data = http://kandian.youth.cn/index/new ArrayList();data.add("I love Beijing");data.add("I love China");data.add("Beijing is the capital of China");DataSource text = env.fromCollection(data);DataSet flatMapData = http://kandian.youth.cn/index/text.flatMap(new FlatMapFunction() { public void flatMap(String data, Collector collection) throws Exception {String[] words = data.split(" ");for(String w:words){collection.collect(w);} }});//去掉重复的单词flatMapData.distinct().print();System.out.println("*********************");//选出长度大于3的单词flatMapData.filter(new FilterFunction() {public boolean filter(String word) throws Exception {int length = word.length();return length>3?true:false; }}).print();3、Join操作//获取运行的环境ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();//创建第一张表：用户ID姓名ArrayList> data1 = new ArrayList>();data1.add(new Tuple2(1,"Tom"));data1.add(new Tuple2(2,"Mike"));data1.add(new Tuple2(3,"Mary"));data1.add(new Tuple2(4,"Jone"));//创建第二张表：用户ID 所在的城市ArrayList> data2 = new ArrayList>();data2.add(new Tuple2(1,"北京"));data2.add(new Tuple2(2,"上海"));data2.add(new Tuple2(3,"广州"));data2.add(new Tuple2(4,"重庆"));//实现join的多表查询：用户ID姓名所在的程序DataSet> table1 = env.fromCollection(data1);DataSet> table2 = env.fromCollection(data2);table1.join(table2).where(0).equalTo(0)/*第一个Tuple2


上一页
1
2
3
下一页
		  	





























推荐阅读

           
                  
              
                  车314汽车网|开什么车去阿拉善英雄会撒欢？看看北京车展上这几款车型 
                
                   
                
              
            

                  
              
                   请脱下你的“阔腿裤”，太土！今年流行的是“酒杯裤”，时髦显瘦 
                
                   
                
              
            

                  
              
                  荣耀30s参数处理器,荣耀30s参数 
                
                   
                
              
            

                  
              
                  季后赛：季后赛30+5+5有多难？伦纳德6次，库里27次，第一位达到了84次 
                
                   
                
              
            

                  
              
                  耿彪到底哪家的网速好？，移动、联通和电信 
                
                   
                
              
            

                  
              
                  「虎扑足球」所以我相信等联赛恢复后曼联肯定会更好，默森：因为B费 
                
                   
                
              
            

                  
              
                  直播吧|希望他继续在这里很多年，皇马高层：拉莫斯是俱乐部历史最佳之一 
                
                   
                
              
            

                  
              
                  『小逗谈星』处女座的爱情再难，也不会选择将就，完美主义，无处不在，原创 
                
                   
                
              
            

                  
              
                  安德罗妮|炉石一哥神级临场反应，充满娱乐效果，各种套路把对手玩晕 
                
                   
                
              
            

                  
              
                  家人遇害|家人遇害 家属案发前曾报警 目前案件什么情况？ 
                
                   
                
              
            

                  
              
                  文字上的青年▲都是一种恩赐，所有过往 
                
                   
                
              
            

                  
              
                  新安|女子生产后纱布被留体内两周多：卧立难安异味严重 
                
                   
                
              
            

                  
              
                  灶王爷供品摆放什么 灶王爷供品摆放什么最好 
                
                   
                
              
            

                  
              
                  老树茶品质的些探索,南糯山老树茶有什么特点 
                
                   
                
              
            

                  
              
                  刘亦菲|乡野村妇刘亦菲，贼眉鼠眼严屹宽，原来睁眼说瞎话才最考验演技 
                
                   
                
              
            

                  
              
                  乔纳森·摩尔|美国现奇观：晴朗天空突然劈下一道闪电，大树被击中好似瞬间着火 
                
                   
                
              
            

                  
              
                  #张艺凡#张艺凡一哭，才明白《创造营2020》问题出在教练团 
                
                   
                
              
            

                  
              
                  佳明|佳明官方确认遭网络攻击：系统正积极恢复中 用户数据未丢失或被盗用 
                
                   
                
              
            

                  
              
                  papi酱|自2016年出道至今，“初代网红”papi酱已走过6年 
                
                   
                
              
            

                  
              
                  75后两夫妻的婚前同居生活：110平装北欧风，全屋装满幸福感 
                
                   
                
              
            

          

荣耀V40正式得到确认！参数配置也基本确定！售价或将是惊喜 

九千元买的手机，最基本的功能都不好用，男子：还能干什么？ 

FlinkSQL 动态加载 UDF 实现思路 

国内运营商基本停止4G投资 但依然可用 

苹果手机信号差问题基本确定，英特尔如释重负，背了整整4年的锅 

iPhone SE Plus基本确认，配备A14、支持5G 

万字干货还原美团Flink实时数仓建设 

超越华为小米，这个国产手机在美国卖出新高度，只是国人基本不用 

网易云音乐基于Flink实时数仓实践 

flink消费kafka的offset与checkpoint

Flink的DataSet基本算子总结

推荐阅读

车314汽车网|开什么车去阿拉善英雄会撒欢？看看北京车展上这几款车型

请脱下你的“阔腿裤”，太土！今年流行的是“酒杯裤”，时髦显瘦

荣耀30s参数处理器,荣耀30s参数

季后赛：季后赛30+5+5有多难？伦纳德6次，库里27次，第一位达到了84次

耿彪到底哪家的网速好？，移动、联通和电信

「虎扑足球」所以我相信等联赛恢复后曼联肯定会更好，默森：因为B费

直播吧|希望他继续在这里很多年，皇马高层：拉莫斯是俱乐部历史最佳之一

『小逗谈星』处女座的爱情再难，也不会选择将就，完美主义，无处不在，原创

安德罗妮|炉石一哥神级临场反应，充满娱乐效果，各种套路把对手玩晕

家人遇害|家人遇害家属案发前曾报警目前案件什么情况？

文字上的青年▲都是一种恩赐，所有过往

新安|女子生产后纱布被留体内两周多：卧立难安异味严重

灶王爷供品摆放什么灶王爷供品摆放什么最好

老树茶品质的些探索,南糯山老树茶有什么特点

刘亦菲|乡野村妇刘亦菲，贼眉鼠眼严屹宽，原来睁眼说瞎话才最考验演技

乔纳森·摩尔|美国现奇观：晴朗天空突然劈下一道闪电，大树被击中好似瞬间着火

#张艺凡#张艺凡一哭，才明白《创造营2020》问题出在教练团

佳明|佳明官方确认遭网络攻击：系统正积极恢复中用户数据未丢失或被盗用

papi酱|自2016年出道至今，“初代网红”papi酱已走过6年

75后两夫妻的婚前同居生活：110平装北欧风，全屋装满幸福感