数据采集技术简介( 二 )

  • 数据项修正 :为了保证后续日志应用的统计口径统一,往往需要对日志中一些公用且重要的数据值做归一、标准化处理或反向补正 。例如用户登录后,需要对登录前的日志做身份信息回补、例如当金额信息因为部分原因出现负值时,需要人工进行补正操作,等等 。
  • 无效数据剔除 :在很多情况下,因为业务变更等原因,会导致采集到的非常多的无意义数据,在特定统计情况下会干扰最终指标的实现 。要知道,很多运营对于哪怕一个百分点都要扣的非常仔细,如果发现因为一些无效数据导致KPI发生了偏差,结果会非常不妙 。为了避免此类异常的发生,需要定时更新处理代码,以处理掉已经不需要的统计日志 。
  • 日志隔离分发 :如果团队规模变得非常庞大时,很多数据,例如实际金额等,就不可能全部对外公开了,需要走特殊的采集流程,以保障数据的安全和隐私 。
  • 五、漏斗模型简介
    Web端的分析经常用到的模型为:漏斗模型 。这里介绍漏斗模型,对于理解一些常见的统计方式有比较好的帮助,例如淘宝SPM体系,当你熟悉和了解之后,会发现它真的很好用 。
    漏斗模型全称为“ 搜索营销效果转化漏斗 ”,对应了企业搜索营销的各个环节,反映了从展现、点击、访问、咨询,直到生成订单过程中的客户数量及流失 。从最大的展现量到最小的订单量,这个一层层缩小的过程表示不断有客户因为各种原因离开,对企业失去兴趣或放弃购买 。可以说,互联网商业价值的体现,与漏斗模型有着直接的关联关系,因此也是一系列技术实现及数据分析的重点 。
    漏斗模型是一个线性流程,从开始到结束,用户在每一个环节,都会产生流失,就像漏斗一样 。以电商为例,最常见漏斗模型就是:浏览/搜索-加购-下单-支付-复购,因此对于统计数据而言,找出用户购买一个商品的搜索过程,来反思用户的行为,就显得十分有必要 。数据人要做的工作,就是整理出路径中各个环节的数据,考虑用户流失的因素,进行对应的优化,或者通过缩短用户路径来优化产品体验 。其实不论在电商平台、招聘平台、广告平台等常见的互联网业务模式中,漏斗模型始终是数据分析工作的重点 。这里通过一个图来理解漏斗模型的商业价值:
    数据采集技术简介

    文章插图
     
    但说实话,很多公司在数据统计上,可能并没有这么强的需求来搭建一个完整的平台,也有很多公司想从不同的地方来看一看自己的数据是否准备,这 时 大家都会选择google GA来进行统计或者是对比数据 。公司的统计往往是两条线,一条是自有线的统计,另一条便是发给Google GA来进行对比分析 。因此在统计平台的功能设置上,经常要与Google GA对标,因此数据仓库不仅是一个过程的搭建,还有很多固有的业务逻辑在其中 。
    六、淘宝SPM码漏斗模型比较优秀的应用案例为 淘宝SPM码  。查看淘宝网页的源代码会经常看到http://detail.tmall.com/item.htm?id=XXX&& spm=2014.123456789.1.2 这样的例子,这是淘宝提供的SPM是淘宝社区电商业务(xTao)为外部合作伙伴(外站)提供的一套跟踪引导成交效果数据的解决方案 。简单说来, SPM编码 是一种 用来跟踪页面模块位置的编码,标准spm编码由4段组成,采用a. b.c.d的格式(建议全部使用数字),其中:
    • a代表站点类型 ,对于xTao合作伙伴(外站),a为固定值,a=2014 。
    • b代表外站ID (即外站所使用的TOP Appkey),比如您的站点使用的TOP appkey=123456789,则b=123456789 。
    • c代表b站点上的频道ID ,比如是外站某个团购频道,某个逛街频道,某个试用频道等 。
    • d代表c频道上的页面ID ,比如是某个团购详情页,某个宝贝详情页,某个试用详情页等 。
    完整的SPM四位编码能标识出某网站中某一个频道的某一个具体页面 。比如xTao合作伙伴(a=2014)中某个外站appkey为123456789(b=123456789),频道ID为1(c=1),页面ID为2(d=2),那么spm=2014.123456789.1.2,就唯一标识外站123456789的频道1上的页面2,从这个页面点击出去的链接,后面都应该携带spm=2014.123456789.1.2的参数串 。这样,通过这个编码,我们就能唯一的定位到一个url是由外站中哪个具体页面点击生成的 。
    因为spm编码本身是有层次的,因此,我们可以: