80后架构师教你学ApacheBeam，一个开源统一分布式数据处理编程库( 五 ) _ApacheBeam

使用DirectRunner运行，输出文件名称类似于
grouppedResults-00000-of-00002、
grouppedResults-00001-of-00002等等。

连接（Join）

最后，我们通过实现一个Join的例子，其中，用户的基本信息包含ID和名称，对应文件格式如下所示：

35451605324179 Jack
35236905298306 Jim
35236905519469 John
35237005022314 Linda

另一个文件是用户使用手机的部分信息，文件格式如下所示：

35451605324179 3G 中国移动
35236905298306 2G 中国电信
35236905519469 4G 中国移动

我们希望通过Join操作后，能够知道用户使用的什么网络（用户名+网络），使用Apache Beam实现，具体实现代码如下所示：

package org.shirdrn.beam.examples; import org.apache.beam.runners.direct.DirectRunner;import org.apache.beam.sdk.Pipeline;import org.apache.beam.sdk.io.TextIO;import org.apache.beam.sdk.options.PipelineOptions;import org.apache.beam.sdk.options.PipelineOptionsFactory;import org.apache.beam.sdk.transforms.DoFn;import org.apache.beam.sdk.transforms.MapElements;import org.apache.beam.sdk.transforms.ParDo;import org.apache.beam.sdk.transforms.SimpleFunction;import org.apache.beam.sdk.transforms.join.CoGbkResult;import org.apache.beam.sdk.transforms.join.CoGroupByKey;import org.apache.beam.sdk.transforms.join.KeyedPCollectionTuple;import org.apache.beam.sdk.values.KV;import org.apache.beam.sdk.values.PCollection;import org.apache.beam.sdk.values.TupleTag; public class JoinExample {     @SuppressWarnings("serial")    public static void main(String[] args) {         PipelineOptions options = PipelineOptionsFactory.create();        options.setRunner(DirectRunner.class);  // 显式指定PipelineRunner：DirectRunner（Local模式）         Pipeline pipeline = Pipeline.create(options);         // create ID info collection        final PCollection<KV<String, String>> idInfoCollection = pipeline                .apply(TextIO.Read.from("/tmp/dataset/MY_ID_INFO_FILE.txt"))                .apply("CreateUserIdInfoPairs", MapElements.via(                        new SimpleFunction<String, KV<String, String>>() {                     @Override                    public KV<String, String> apply(String input) {                        // line format example: 35451605324179    Jack                        String[] values = input.split("t");                        return KV.of(values[0], values[1]);                    }                 }));         // create operation collection        final PCollection<KV<String, String>> opCollection = pipeline                .apply(TextIO.Read.from("/tmp/dataset/MY_ID_OP_INFO_FILE.txt"))                .apply("CreateIdOperationPairs", MapElements.via(                        new SimpleFunction<String, KV<String, String>>() {                     @Override                    public KV<String, String> apply(String input) {                        // line format example: 35237005342309    3G    CMCC                        String[] values = input.split("t");                        return KV.of(values[0], values[1]);                    }                 }));         final TupleTag<String> idInfoTag = new TupleTag<String>();        final TupleTag<String> opInfoTag = new TupleTag<String>();         final PCollection<KV<String, CoGbkResult>> cogrouppedCollection = KeyedPCollectionTuple                .of(idInfoTag, idInfoCollection)                .and(opInfoTag, opCollection)                .apply(CoGroupByKey.<String>create());         final PCollection<KV<String, String>> finalResultCollection = cogrouppedCollection                .apply("CreateJoinedIdInfoPairs", ParDo.of(new DoFn<KV<String, CoGbkResult>, KV<String, String>>() {                 @ProcessElement                public void processElement(ProcessContext c) {                    KV<String, CoGbkResult> e = c.element();                    String id = e.getKey();                    String name = e.getValue().getOnly(idInfoTag);                    for (String opInfo : c.element().getValue().getAll(opInfoTag)) {                      // Generate a string that combines information from both collection values                      c.output(KV.of(id, "t" + name + "t" + opInfo));                    }                }        }));         PCollection<String> formattedResults = finalResultCollection                .apply("FormatFinalResults", ParDo.of(new DoFn<KV<String, String>, String>() {                  @ProcessElement                  public void processElement(ProcessContext c) {                    c.output(c.element().getKey() + "t" + c.element().getValue());                  }                }));          formattedResults.apply(TextIO.Write.to("joinedResults"));         pipeline.run().waitUntilFinish();     }}
上一页
1
2
3
4
5
6
下一页
		  	





























推荐阅读

           
                  
              
                  空姐是不是要求很漂亮-,当空姐一定要漂亮的吗- 
                
                   
                
              
            

                  
              
                  姜素拉|韩国又一位女神宣布结婚，老公身份显神秘，曾瘦身52斤闯进娱乐圈 
                
                   
                
              
            

                  
              
                  嘉丽侃篮球|太阳豪取复赛6连胜，新星连续2场爆发，布克35分，27分大胜雷霆 
                
                   
                
              
            

                  
              
                  李国庆行拘期满后首发声|李国庆行拘期满后首发声：我立誓接管当当 
                
                   
                
              
            

                  
              
                  【苹果】苹果外包钟爱中国大陆？库克：我们只挑最好的 
                
                   
                
              
            

                  
              
                  定制笔记本写什么比较好?定制笔记本尺寸 
                
                   
                
              
            

                  
              
                  网易娱乐|范世錡《青青子衿》嘴炮技能MAX 情感真挚引共鸣 
                
                   
                
              
            

                  
              
                  抓饭体育平台|小詹姆斯利拉德点赞詹娜内衣照，这谁顶得住？ 
                
                   
                
              
            

                  
              
                  张大仙|阿泰碰瓷张大仙？声称人气已经排名第一，看到数据粉丝笑了！ 
                
                   
                
              
            

                  
              
                  大气的公众号名字文艺 
                
                   
                
              
            

                  
              
                  浚县|危险！媒体：卫河鹤壁段决堤，有村民被围在河堤上 
                
                   
                
              
            

                  
              
                  中国新闻网|第26届上海电视节落幕《破冰行动》获最佳中国电视剧奖 
                
                   
                
              
            

                  
              
                  聊聊汽车吧|温柔漂亮有魅力，堪称万人迷，让男人爱得死去活来的三大生肖女 
                
                   
                
              
            

                  
              
                  医用酒精和普通酒精一样吗 医用酒精有区别吗 
                
                   
                
              
            

                  
              
                  『鲜闻说』她穿上却短了一大截！，有种“大长腿”叫关晓彤！别人穿校服裤都嫌太长 
                
                   
                
              
            

                  
              
                  太保拟7亿成立金融科技公司，保险系科技公司崛起 
                
                   
                
              
            

                  
              
                  微笑的娱乐小屋|推荐现言女主文，人间芭比女配音演员VS斯文高冷酒店大亨！ 
                
                   
                
              
            

                  
              
                  【维生素】备孕时一定要补充的营养 否侧后悔莫及！ 
                
                   
                
              
            

                  
              
                  唐艺昕|张一山版韦小宝来了！唐艺昕演建宁公主，网友：角色形象神还原 
                
                   
                
              
            

                  
              
                  趣味星座社■旧爱难放下，真情难抵挡，喜鹊牵缘，与旧爱再相守的星座，7天后 
                
                   
                
              
            

          

架构的腐化是必然的 

浅谈数据库分布式架构设计 

离婚后户口迁回娘家可以独立一户吗？ 

产后骶髂关节炎 

淘宝开店不经营会有什么后果 开了淘宝店怎么运营起来 

怎么才能成为淘宝商家 淘宝开店之后怎么操作 

达成一次性赔偿协议后，能否再次起诉要求赔偿? 

开机后不能直达想看的节目，如何为老年人选择一台操作便利的电视 

风衣后面的腰带怎么系？ 

运动后血尿什么原因