唯品会实时平台架构-Flink、Spark、Storm 目前在唯品会实时平台并不是一个统一的

目前在唯品会实时平台并不是一个统一的计算框架，而是包括Storm ， Spark ， Flink在内的三个主要计算框架，这是由于历史原因形成。
实时平台的职责主要包括实时计算平台和实时基础数据。实时计算平台在Storm、Spark、Flink等计算框架的基础上，为监控、稳定性提供了保障，为业务开发提供了数据的输入与输出。实时基础数据包含对上游埋点的定义和规范化，对用户行为数据、MySQL的Binlog日志等数据进行清洗、打宽等处理，为下游提供质量保证的数据。
文章插图
在架构设计上，包括两大数据源。一种是在App、微信、H5等应用上的埋点数据，原始数据收集后发送到在kafka中；另一种是线上实时数据的MySQL Binlog日志。数据在计算框架里面做清洗关联，把原始的数据通过实时ETL为下游的业务应用（包括离线宽表等）提供更易于使用的数据。
以UV计算为例，首先对Kafka内的埋点数据进行清洗，然后与Redis数据进行关联，关联好的数据写入Kafka中；后续Flink计算任务消费Kafka的关联数据。通常任务的计算结果的量也很大（由于计算维度和指标特别多，可以达到上千万），数据输出通过也是通过Kafka作为缓冲，最终使用同步任务同步到HBase中，作为实时数据展示。
同步任务会对写入HBase的数据限流和同类型的指标合并，保护HBase 。与此同时还有另一路计算方案作为容灾。
文章插图
原文链接：
Apache Flink 在唯品会的实践
【唯品会实时平台架构-Flink、Spark、Storm】

唯品会实时平台架构-Flink、Spark、Storm

推荐阅读

搞笑街区|客人点鱼的时候，小二总会把活鱼拿上来！，开心笑话：有一个饭店

u19|长春女足队员入选U19大名单

深圳■深圳抗疫十问① | 深圳为什么那么早就发现新冠肺炎“人传人”？

河北疫情?HEB文件要怎麽打開?

达米安·利拉德|2K魔咒再现？利拉德或离开，那些年这六位球员成封面人物后离队

DNF心情咖啡屋|DNF：旭旭宝宝再创奇迹！首把+20神之意象诞生，账号价值已翻倍

健身|坚持练腿有多重要？健身多练腿，你会有什么益处？

八卦君说事内置北斗导航，外形酷似悍马，东风首款HUV将上市

汽车贴膜要多久(汽车贴膜哪个品牌好)

清秀凉鞋贵吗

「医学观察」江夏新增300张发热床位，2月3日启用

美的薄盐电压力锅测评

【小儿】小儿发烧物理降温 7种降温方式有效退烧

没有办法面对曾经的自己咋办

新华网|德国法兰克福“跳蚤市场”重新开放[组图]

80年代的绿皮火车和赶火车人：原来那时候乘火车是这个样子

奥沙利文|世锦赛第6冠在招手！奥沙利文8-2连丢4局，仍10-7占先机

分居期间一方谈恋爱算出轨吗离婚分居期间可以找男朋友吗

体坛克卜勒|为何蓝黑球迷隐隐担忧，一诡异魔咒太可怕，国米5球大胜挺进决赛

王者荣耀|E星3-1TTG：纵情疯狂军训绑兔，老林真有点东西，TTG被大乔打哭