文章插图
第三点就是弹性计算节点(compute node) 。当我们去访问外部数据源的时候,Doris 本身是不会去存储这些数据的,所以不需要 BE 节点本身的存储能力 。一旦我们不再需要 BE 的存储能力,它就变成了一个无状态的节点 。当一个节点是有状态的,删除节点或者添加节点时都要考虑到数据如何安全下线,数据如何迁移,重新 rebalance 。而一个无状态节点可以非常方便的进行弹性扩缩容 。所以我们在新的版本中给 BE 节点增加了两种类型:
第一种类型是 mix node,mix 就是标准的 BE 类型 。既支持数据计算,也支持本地的文件存储;第二种类型叫 compute node,即计算节点,计算节点可以很方便的进行弹性伸缩 。比如可以很快速地在新机器或者云上创建一些新的 compute node 。这些 compute node 可以分担访问远端存储的一些计算的开销 。通过这种无状态的 BE 节点,可以快速去承接外部数据源的计算负载 。来达到弹性伸缩的目的 。
下图是我们在版本发布之初做的一个测试 。
文章插图
可以看到在同一资源规格下,我们去查询 Iceberg TPCH 100G 的数据集 。相比 Trino,Doris 有三到五倍的性能提升 。
最后看一下当前 Doris 对数据湖的一些功能的支持程度:
文章插图
在 1.2.0 版本中,Doris 支持三个主流的外部数据服务或者数据仓库 。第一个就是 Hive,支持 Managed table 和 External table 。支持 parquet、orc 和 text 格式的读取 。Iceberg 完整的支持 V1 Format,V2 支持了 position delete 。Hudi 暂时只支持 MOR 的表,包括 COW Snapshot Query 以及 MOR Read Optimized Query 。
三、Doris 社区发展以及后期开发规划最后介绍一下我们在数据湖分析这块的一些规划 。
文章插图
第一个规划就是增量数据访问 。增量数据也是 Iceberg,Hudi 这类新兴的数据库系统所提供的核心价值之一 。它可以应用于 A/B Test,或者是用其 Time Travel 的能力、CDC 的能力来进行增量数据的处理和访问 。Doris 在后续也要对这一类的功能进行支持 。其次就是基于增量数据的视图查询 。比如我们会通过基于增量数据的多表的物化视图的更新,或者逻辑视图的权限控制等等,来帮助用户很好的去管理数据湖上的数据,并且能够对数据进行很精细的访问 。
第二点就是数据湖写入能力 。刚才我们介绍这些功能时候,其实都是在介绍如何去访问和读取这些外部数据源的能力 。如果用户想完整的访问管理这些数据源的话,必须在外部对接例如 Spark 这些系统进行数据写入 。所以我们后续希望在 Doris 内部提供统一的操作入口,来消除用户操作数据的割裂感,来保证对数据库的写入操作和查询操作,都可以统一在 Doris 中完成 。
最后一点是深入集成 Iceberg 的能力 。希望以 Doris 本身作为 Iceberg 的元数据中心来提供托管 Iceberg 的能力,提升自身对于数据湖,或者说是对结构化、半结构化大规模数据的管理能力 。
以上就是对 Doris 数据湖的一些介绍 。最后简单介绍一下 Doris 社区现状和未来规划 。
Apache Doris 是国内最活跃的开源社区之一 。
文章插图
累计贡献者人数已经超过了四百位,平均每月的活跃用户贡献者人数也超过了一百人 。可以看到我们每个月所提交的 commit 量和 push 量都是相当可观的,发展也是非常快速的 。也欢迎对分布式数据库或者对 MPP、OLAP 数据库感兴趣的同学加入到社区中来,我们可以一起去完善这样的一个数据库系统 。
下图是 Doris 在 2022 年底到 2023 年初的一个大致规划:
文章插图
首先我们在 2022 年的 Q4 季度,发布了 1.2.0 版本 。在该版本中,实现了多元数据目录,其中就包括数据分析这部分的一些能力;其次我们还加入了半结构化数据的一些支持,包括 Array 和 Binary Json 格式的支持;我们也支持了新的 unique 模型,可以帮助用户在可变更的或者可更新的数据中依然能进行快速的数据访问;其次我们还支持了包括 JDBC 的 External table,以及 Java UDF 等一些新的特性 。欢迎大家到官网去体验 。
推荐阅读
- 哪个借款平台不查征信(贷款不查征信极速放款)
- 不查征信负债下款最快的平台(贷款不查征信极速放款)
- 极速僵尸结局什么意思 沐浴盐僵尸
- 山姆极速达时间?怎样给山姆极速达骑手小费
- 详解Apache Sentry->Ranger平滑升级方案
- Apache日志分析器
- 十大经典极速飞车电影 十大飙车电影
- 北京联通3G极速上网卡如何收费 北京3g木兰公寓怎么样
- Linux 9 自动化部署 Kafka 集群
- 极速保镖|电影《极速保镖》第十二届北京国际网络电影展载誉而归 尽显高能