基于 ByteHouse 重构兴趣圈层平台RDS 作为行式数据库更适合单点事务分析工作显然不符合当前平台诉求 , 我们分别从查询场景、查询性能、存储成本、迁移成本对存储选型 。
查询场景
- 圈层信息由模型生产,按时间分区批量导入,不存在临时导入,为 Append only 场景 。
- 圈层特征多,业务方按照诉求对和自身业务相关的特征进行筛?。?列式存储比行式存储更合适 。
- 圈层主要以分析统计为主,不强需求事务处理,面向 OLAP 业务 。
- MySQL 对于多列复杂的条件查询时 , 查询性能很难优化,需要通过强依赖 redis 缓存加速 , 否则平台功能不可用 。
- 圈层场景通常限制在局部数据中聚合分析,如计算圈层id位于集合内的关键词频率统计,若该集合范围过大索引失效会被劣化为全表扫描 。
文章插图
具体场景对比
数据管理信息查询场景:
文章插图
应用工具分析场景:
文章插图
总结综上可以看到,基于 ByteHouse 替换 MySQL 重构抖音兴趣圈层平台后,不同几个典型场景的查询效率平均提升了 100 倍左右 , 大大提升了用户体验 。由于 ByteHouse 出色的查询性能和良好的数据压缩比,中等资源的服务器就能很好的满足需求,这也降低了综合硬件成本 。此外,ByteHouse 具有良好的水平扩展能力,如果数据量进一步增长,也可以便捷的通过增加服务器数量来提升分析能力 。
推荐阅读
- 如何从头开始编写LoRA代码,这有一份教程
- 到底有没有必要分库分表,如何考量的
- 终于看到贾玲的真实模样,脸上太瘦挂不住肉,满脸褶子还显老
- 巨蟹座几月几号到几月几号 巨蟹座几月几日到几月几号
- 深扒之下,找到了杜星霖甘愿为张纪中忍受“钢丝穿乳”之痛的原因
- 几十块和几千块的枕头,到底有什么区别?挑对枕头要看这些
- 翻车!网飞《三体》开播恶评如潮:1.6亿美元打水漂、特效剧情等差到家
- 猪八戒马德华:现实中娶到“嫦娥”,52年恩爱如初,儿子是他骄傲
- 《与凤行》选角太狠了!看到27岁的女七号,才知道什么是花容月貌
- 《长风破浪》制片人点评王一博表现,言辞犀利,句句说到观众心坎