- 更丰富的复杂数据类型:除 Array/JSONB 类型以外,2023 年第一季度我们将增加对 Map/Struct 类型的支持,包括高效写入、存储、分析函数以及类型之间的相互嵌套,以更好满足多模态数据分析的支持 。后续将支持更加丰富的数据类型,包括 IP、GEO 地理信息等数据类型,并会探索在时序数据场景的高效数据分析 。
- 更高效的文本分析算法:对于文本数据,我们将引入更多的文本分析算法,包括自适应 Like、高性能子串匹配、高性能正则匹配,Like 语句的谓词下推、Ngram Bloomfilter 等,同时基于倒排索引实现全文检索能力,在日志分析场景提供比 ES 更高性能和性价比的分析能力 。这些功能都已经处于就绪阶段,将在 2023 年初与大家见面 。
- 动态 Schema 表:传统数据库在设计之初 Schema 是静态的,Schema 变更时需要执行 DDL ,而这一操作往往具有阻塞性 。在越来越多的现代数据分析场景中,表结构会随时间推移而变化,因此我们引入了 Dynamic Table,可以根据数据写入自动适应 Schema ,不再需要执行 DDL,由过去的人工干预数据结构进化为数据自驱动,极大提升了灵活数据分析的便捷性 。这一功能将在 2022 年第一季度正式发布 。
- 更简易的数据对接:在 1.2 版本中我们发布了 Multi-Catalog,支持了多种异构数据源的元数据自动映射与同步,实现了数据湖的无缝对接,后续将对 Delta Lake 的支持以及 Iceberg、Hudi 等更多数据格式的支持 。
- 更完整的数据湖能力支持:提供数据湖上数据的增量更新与查询,还会支持将分析结果写回数据湖、外表写入内表,实现数据分析流程的全闭环 。同时还将支持多版本 Snapshot 读取和删除,并进一步在 Apache Doris 为数据湖数据提供物化视图 。
- 更稳定的数据写入:通过一系列 Compaction 操作和批量数据写入方面的优化,节省资源开销,降低写放大问题,并结合全新的内存管理框架提升写入过程的内存稳定性,进而提升系统稳定性 。
- 更完善的数据更新支持:过去部分列更新是通过 Agg 模型上的 Replace_if_not_null 来实现的,后续我们将会增加 Unique Key 模型上的部分列更新支持,并完整实现 Delete、Update、 Merge 等数据更新的操作 。
- 更统一的数据模型:当前 Apache Doris 的三种数据模型在各个场景均有丰富的应用,后续我们将尝试统一现有几种数据模型,使用户在使用体验上更加统一 。
- 简化建表:目前 Apache Doris 在建表时分区已经支持了时间函数,后续我们将进一步消除 Bucket 设置,帮助用户最大程度简化建表建模 。
- 安全性:目前已经实现基于 RBAC 模型的权限管理机制,使用户权限更安全可靠;并对 ID-federation、行列级别权限,数据脱敏等进行了优化,后续将进一步完善 。
推荐阅读
- 2023年十大网络安全预测
- 十年前1.4万买的钻戒现在只值80元?
- 高铁|透明质酸、对苯二酚的替代品?东边野兽、稀物集、溪木源都爱的「菌菇」原料,能成为下一个顶流吗? | 原料特辑
- 日常生活中我们应该如何节约用水
- 准备工作做得好 出外旅游没烦恼
- 两个人的晚餐菜谱是怎样的?
- 豆角的腌制方法有哪些?
- 如何放松(减压小技巧)
- 如何放下一段感情(怎样放下一段感情和放下一个人)
- 如何放下一个深爱的人(怎样放弃一个喜欢的人)