无懈可击的数据仓库体系规划及实施流程( 二 )


【无懈可击的数据仓库体系规划及实施流程】8、用户主线
反映整个app的用户规模,比如整个app的活跃、累积活跃、新增、留存、回流、流失 。
9、用户群线
满足某些行为的用户群的追踪,目的是为了进行个性化的运营等活动,该线的升华扩展是用户画像 。
10、内容消费
提供的消费实体的曝光、点击、生成、转化等,以及内容的累积消费、消费排行等都属于内容线 。
11、状态线
一般会作为辅线存在,相当于维表的存在,状态线一般又分为以下几种:

  • 天表全量用户状态,会加入一些修正,以及基于天全量的累积表的快照;
  • 全量用户信息维表;
  • 开关操作状态线;
  • 记录开关状态变更记录,得到当前用户的开关状态快照,是多态记录的一种特殊情况;
  • 添加删除状态线;
  • 记录用户的添加删除等操作,得到当前用户操作结果的保有快照;
  • 其它,比如登录状态、用户等级等 。
12、商业化线
商业化线相关的与收入相关的,比如cp合作、广告位、推广位、订单、会员充值等 。
需要说明的是本系列的数仓的主要介绍的是流量型产品形态、更多的是关注用户规模,所以主线是是关于用户的,而对于其它的产品形态,比如购物类、充值消费类的则主线可能是商业化线等 。此外作为用户流量型产品,还隐藏着另外一个更加常用的线:自查线,每个主题的自查明细表,基于event_id或者参数的展开,但是没有参数值的组合过滤 。(自查线这个似乎没有必要)
下图是一张数仓的分线演示图,每个框是一张表,不同颜色的框串联成各自的数仓线 。
无懈可击的数据仓库体系规划及实施流程

文章插图
13、分主题
在进行分矩阵设计的时候牵涉到分行和列的业务主题,此处详细介绍下数据主题的设计,本部分的设计是从高层次上的 。
主题划分的一些依据:业务过程(或子过程,比如订单)、ER中的E(或者R,比如商品主题)、数据服务的对象(运营主题)、数据的用途(比如商业);分主题也即数据集市,根据业务形态的不同,会衍生出不同的主题,但以下主题在app中广泛存在:
  • 用户主题(也即大盘:新增活跃、留存);
  • 内容主题(具体提供的服务形式,也可以理解为产品主题,含曝光、点击、分享等用户消费传播行为);
  • 运营主题(可能合并到某个内容主题上,比如活动、通知、弹窗、授权、分享等);
  • 商业化主题(广告、订单等通常用于结算);
  • 技术主题(故障率、崩溃率、准确率等衡量技术指标) 。
备注:
  • 社交主题可以合并到内容主题也可以合并到运营主题,需要视app的具体特性和重视程度确定;
  • 数仓的分主题主要体现在数据集市层,而数据集市层可能会因为使用比如kylin等多维分析工具被弱化 。
14、用户主题
用户主题是产品的盘子,就像家店铺,多少人使用就像多少顾客 。基于用户主题的常见统计有整体的新增、活跃、累积活跃、新增留存、活跃留存等大盘数据,以及对某些关键行为的用户的后续追踪,还有某些核心过程的PUV、转化漏斗等 。
15、内容主题
内容主题是盘子里东西的消费状况,就像提供的菜单,每个菜被多少人点了 。基于内容主题的常见统计有针对内容(文章、视频、商品等)的各种消费行为(曝光、点击、购买、下载等)的次数、人数、时长、金额等按不同维度的度量统计 。常见的维度拆分有时间拆分、地域拆分、位置(人货场模型中的场)拆分、画像拆分、渠道拆分等,对度量的统计又有累积、非累积、TopN等 。
16、运营主题
广告、促销、活动等一切由于运营活动相关本身的数据统计,以及运营活动对其它主题数据的影响衡量 。
17、营收主题
营收的来源主要分为以下几种:
1)流量广告
  • 商务合作;
  • 优惠券 。
2)充值消费
  • 会员充值;
  • 订单、打赏等 。
流量广告的数据主要产生于用户行为,而充值消费的数据主要来自业务库相关 。
以上四个主题是在常见应用上通用的主题,其它的主题比如技术主题,在某些有明显的技术指标对比的产品上会占主要的地位,比如文字识别类应用的识别准确率、搜索类产品的搜索满意度、语音智能助理类的会话完成率等 。这些产品上技术指标和用户的体验密切相关,是产品未来发展重要的参考方向,因此会强化出来做数据主题 。另外如引流类或者与其他app有频繁的引流拉起等应用的数据体系建设上,也会单独拿出跳转对接数据做主题分析 。总之,主题的划分并不是确定不变的,需要根据业务的具体形态和重点度量的指标等进行建设 。


推荐阅读