【数据采集技术简介】前言
本系列的技术文章不涉及实现细节,仅探讨实现思路 。由于数据仓库不仅仅是一个理论概念,其数据质量等原则包含了大量的技术实现细节,因此从数据采集开始,到数据处理,至最终的数据展现,都需要进行原理上和实现上的思路分析,才能保证最终数据仓库理论的完整实现 。另外,需要强调的是,本系列文章非原创,是笔者多年从业经历的一种思路整理,对于日常理解数据仓库的实现有着很大的帮助,因而用到了非常多其他文章的引用,并介绍很多业界的好用工具及优秀做法 。
一、技术路线图
文章插图
二、Web端日志采集的业务概述Web端数据采集主要通过三种方式实现:服务器日志、URL解析及JS回传,详情如下:
- 服务器日志 ,指Web服务器软件,例如Httpd、Nginx、Tomcat等自带的日志,例如Nginx的access.log日志等 。
- URL解析 ,指访问服务器时,将URL信息及携带的参数进行解析后,上传服务器,例如访问百度首页:https://www.baidu.com/s?ie=utf-8&wd=你好,我们可以获得本次访问的word为“你好” 。
- JS回传 ,指在Web页面上添加的各类统计插件,通过在页面嵌入自定义的JAVAscript代码来获取用户的访问行为(比如鼠标悬停的位置,点击的页面组件等),然后通过Ajax请求到后台记录日志 。
- 页面浏览日志 :别名为“展现日志”;指当一个页面被浏览器加载时所采集的日志,该类型为最基础的互联网日志,也是PV及UV统计的基础 。
- 页面交互日志 :别名为“点击日志”;指当页面加载和渲染完成后,用户可以在页面上执行的各类操作,以便量化感知用户的兴趣点 。
Web端重要指标主要包括三个部分:
- 页面浏览 :PV、UV、IP、跳出率、平均访问时长、转化次数等 。
- 页面交互 :搜索词、控件点击、页面跳转等 。
- 其他 :转化路径分析、设备分析、访客分析、系统环境、地域分布等 。
- 用户在浏览器中点击网页链接 。
- 浏览器在执行时,会解析用户请求内容,并按照HTTP协议中约定的格式将其转化为一个 HTTP请求 发送出去 。
- 服务器按照业务逻辑处理本次请求,并按照 HTTP协议规定 的格式,将响应结果返回浏览器 。
- 浏览器收到服务器相应内容,并将其按照文档规范展现给用户 。
但只统计页面流浪是不能满足业务需求的,很多场合下用户的具体行为特征也需要采集,因为往往会在特定的位置添加一个JS空间,当用户在页面上执行某个行为时,便会触发一个异步请求,按照约定的格式向日志服务器发送点击、等待、报错等交互行为 。
四、Web端日志的清洗和预处理在大部分场合下,直接收到的日志不能提供给下游使用,只能作为ODS基础日志进行保存,由于大数据平台的半结构化特征要求,需要进行一些修正,转化为DWD基础日志才可以使用,具体原因有如下几种:
- 反作弊、反爬虫、反攻击要求 :由于Web端日志是互联网行业大数据分析的基础数据源,在实际业务场景下,往往会包含比例不小的恶意攻击行为,例如流量作弊、爬虫抓取、流量攻击等,导致日志相关统计指标发生明显的偏差 。为此需要进行日志合法性的校验,并由专门的团队来处理相关攻击,这是一个长期而艰苦的过程 。
推荐阅读
- 茉莉茶质量要求与技术标准,润肤花草茶
- 环境搭建-Redis
- 雅迪、爱玛、台铃,电动车哪个牌子好?从品牌、技术、配置讲明白
- 足球游戏简介
- 从AI到区块链 2020年保险行业发展的5个技术趋势
- 英特尔为美国国防部研发防御技术 防止人工智能系统被攻击/欺骗
- 奥美广告公司简介
- 想学习黑客技术吗?告诉你什么才是真正的黑客!
- 各大品牌电脑进入BIOS
- 百盛购物中心概况简介