下一个十年,我们需要一款什么样的 OLAP 数据库?( 三 )



下一个十年,我们需要一款什么样的 OLAP 数据库?

文章插图
2023 RoadMap
承前而启后,2023 年,Apache Doris 社区在以上几方面特性持续完善的同时,也将开启更多有意义的工作 。全年的 RoadMap 以及明年 Q1 的具体计划,可以参考以下的全景图:
【下一个十年,我们需要一款什么样的 OLAP 数据库?】
下一个十年,我们需要一款什么样的 OLAP 数据库?

文章插图
稳定的版本发布和迭代速度对于开源软件至关重要 。在 2023 年,我们将以每季度一个 2 位版本的节奏,开始 Apache Doris 2.x 版本的迭代 。同时,针对每个 2 位版本,我们也将以每月一个 3 位版本的速度进行功能维护和优化 。
从功能角度来看,后续研发工作将会围绕以下几个主要方向展开:
高性能高性能是 Apache Doris 不断追求的目标,过去一年在 Clickbench、TPC-H 等公开测试数据集上的优异表现,已经证明了其在执行层以及算子优化方面做到了业界领先 。未来我们也会不断优化各个场景下的性能表现,回馈用户极速的数据分析体验,具体包括:
  • 更复杂SQL性能提升:2022 年我们已经启动全新查询优化器的设计与开发,而这一成果在 2023 年一季度就将与大家见面 。全新查询优化器提供了丰富的规则模型,实现了更智能的代价选择,可以更高效地支撑复杂查询,能够完整执行 TPC-DS 全部 99 个SQL 。同时全新查询优化器还具备全查询场景的自适应优化,便于用户在面对不同分析负载和业务场景时都获得一致性的使用体验 。
  • 更高的点查询并发:高并发一直是 Apache Doris 所擅长的场景,而 2023 年我们将会进一步加强这一能力,通过 Short-Circuit Plan、Prepare Statement、Query Cache 等一系列技术,实现单机数万 QPS 的超高并发支持,并具备随集群规模的拓展进而线性提升并发的能力 。
  • 更灵活的多表物化视图:在过去版本中,通过强一致的单表物化视图,Apache Doris 加速了固定维度数据的分析效率 。而全新的多表物化视图将会解耦 Base 表与 MV 表的生命周期,通过异步刷新和灵活的增量计算方式,满足多表关联以及更复杂 SQL 的预计算加速需求,这一特性将在接下来的 2023 年第一季度与大家见面!
高性价比 成本和效率对企业而言是赢得市场竞争的关键,对数据库而言亦是如此 。过去 Apache Doris 凭借在易用性方面的诸多设计帮助用户大幅节约了计算与存储资源成本,后续我们也会引入一系列云原生能力,在不影响业务效率的同时进一步降低成本,具体包括:
  • 更低的存储成本:我们将探索与云上对象存储系统和文件系统的结合,帮助用户进一步降低存储成本,包括更完善的冷热数据分离能力,将冷数据智能转移至更廉价的对象存储或文件系统中 。结合单一远程副本、冷数据 Cache 以及冷热智能转换等技术,保证业务查询效率不受影响的同时实现存储成本大幅降低,这一功能将于 2023 年第一季度发布 。
  • 更弹性的计算资源:剥离存储与计算状态,引入仅用于计算的 Elastic Compute Node。由于不存储数据,弹性计算节点具备更加快速的弹性伸缩能力,便于用户在业务高峰期进行快速扩容,进一步提升在海量数据计算场景(如数据湖分析)的分析效率,这一功能已经处于最终调试阶段,即将与大家见面 。后续我们还将通过对集群内存和 CPU 运行指标的监控和自动策略配置,实现自动的节点扩缩容(Auto-scaling) 。
混合负载随着用户规模的极速扩张,越来越多的用户将 Apache Doris 用于构建企业内部的统一分析平台 。这一方面需要 Apache Doris 去承担更大规模的数据处理和分析,另一方面也需要 Apache Doris 同时去应对更多分析负载的挑战,从过去的实时报表和 Ad-hoc 等典型 OLAP 场景,扩展到 ELT/ETL 、日志检索与分析等更多场景的统一 。为了能更好适配这些场景,许多工作已经进入紧锣密鼓的研发中,并将于 2023 年陆续与大家见面,具体包括: