十分钟掌握Doris,超越Hive、Elasticsearch和PostgreSQL( 二 )


5. 示例步骤1:创建用户ID映射表我们采用唯一模型用于用户ID映射表,其中用户ID是唯一键 。映射的连续ID通常从1开始严格递增 。

十分钟掌握Doris,超越Hive、Elasticsearch和PostgreSQL

文章插图
步骤2:创建用户组表:我们采用聚合模型用于用户组表,其中用户标签作为聚合键 。
十分钟掌握Doris,超越Hive、Elasticsearch和PostgreSQL

文章插图
假设我们需要挑选出ID在0到2000000之间的用户 。
以下代码段分别使用非连续(tyc_user_id)和连续(tyc_user_id_continuous)用户ID进行用户分组 。它们的响应时间之间存在很大差距:
  • 非连续用户ID:1843ms
  • 连续用户ID:543ms

十分钟掌握Doris,超越Hive、Elasticsearch和PostgreSQL

文章插图
6. 总结我们在Apache Doris中拥有2个容纳数十TB数据的集群,每天几乎有10亿行新数据流入 。随着数据量的扩大,我们曾经目睹数据摄入速度急剧下降 。但是 , 在使用Apache Doris升级数据仓库后,我们将数据写入效率提高了75% 。此外,在结果集小于500万的用户分组中 , 它能够在毫秒内响应 。最重要的是,我们的数据仓库对开发人员和维护人员更加简单和友好 。




推荐阅读