5. 示例步骤1:创建用户ID映射表我们采用唯一模型用于用户ID映射表,其中用户ID是唯一键 。映射的连续ID通常从1开始严格递增 。
文章插图
步骤2:创建用户组表:我们采用聚合模型用于用户组表,其中用户标签作为聚合键 。
文章插图
假设我们需要挑选出ID在0到2000000之间的用户 。
以下代码段分别使用非连续(tyc_user_id)和连续(tyc_user_id_continuous)用户ID进行用户分组 。它们的响应时间之间存在很大差距:
- 非连续用户ID:1843ms
- 连续用户ID:543ms
文章插图
6. 总结我们在Apache Doris中拥有2个容纳数十TB数据的集群,每天几乎有10亿行新数据流入 。随着数据量的扩大,我们曾经目睹数据摄入速度急剧下降 。但是 , 在使用Apache Doris升级数据仓库后,我们将数据写入效率提高了75% 。此外,在结果集小于500万的用户分组中 , 它能够在毫秒内响应 。最重要的是,我们的数据仓库对开发人员和维护人员更加简单和友好 。
推荐阅读
- 快速掌握 Go 工作区模式
- 十分钟搞懂K8S的亲和与反亲和调度
- 掌握流量抑制与风暴控制,让你的业务更上一层楼
- 掌握技巧:如何对TikTok视频进行创新二创,吸引粉丝无数!
- Docker优秀实践:掌握这七个技巧让你成为容器化大师
- 惹网友爆笑!TVB知名男星商演唱歌疯狂走音,登台十分钟薪酬17万
- 掌握Linux系统调用接口:深入理解系统功能
- 正确步行减肥掌握三大要点
- HashMap 的基础结构,必须掌握!
- 轻松掌握MLOps的操作指南