|面向初学者的数据分析知识,让你快速了解数据分析


编辑导语:大数据是互联网发展到一定阶段的必然产物 , 身处于大数据时代的我们每天都会活在一连串的数据里 。 因此 , 为了高效并合理地运用这些数据 , 数据分析行业迅速崛起 。 到现在 , 越来越多的人看到了数据分析的未来和前景 , 本文作者总结了初学者应该掌握的数据分析知识 , 帮助你快速掌握数据分析技巧 。
|面向初学者的数据分析知识,让你快速了解数据分析
本文插图

一、什么是数据分析?
数据或信息只是一串原始的数字或字符 , 数据量的增加会导致各种需求的增加 。
比如我们需要对数据执行检查 , 进行数据清理 , 转换以及数据建模 , 通过这些方式来达到我们需要的目的 , 得出相应的结论 , 做出正确的决策——我们把这一系列过程称为数据分析 。
在统计应用中 , 数据分析可以又分为探索性数据分析(EDA)和验证性数据分析(CDA) 。 这二者的区别在于——EDA着重于发现数据中的新特征 , 而CDA着重于确认或否定现有的假设 。
【|面向初学者的数据分析知识,让你快速了解数据分析】探索性数据分析可以理解为一种用于找到数据间的模式相关性的分析 。 就像是“参考答案”的获取 , 这种“参考答案”有且不限于一个 。
场景包括典型的“啤酒尿布”这类数据挖掘应用 , 工具包括SAS、SPSS这类数据挖掘软件以及R语言这类语言工具 。
优点是有可能从一堆貌似杂乱无章的数据中找到一些相关性和模式来辅助决策;缺点是找到一些无意义的相关性 , 比如所有拥有结婚证的用户都结过婚 。
验证性数据分析是当你知道了用什么分析模型和算法 , 目前需要对已有的数据计算出响应结果 , 更类似一种“准确答案“的获取 。
应用场景就是基于多维数据仓库的OLAP分析应用 。 在企业应用最广泛的就是EPM(Enterprise Performance Management)包括全面预算 , 商业智能等应用 。
在企业应用最广泛的就是EPM(Enterprise Performance Management)包括全面预算 , 商业智能等应用 。
与"啤酒尿布”这种探索性数据挖掘应用相比 , OLAP分析的结果只能是唯一的准确答案 。
比如通过企业计算出的利润率只能是一个数字 , 任何一家企业都不可能得出“利润率有可能是13.2%”这样的答案 , 一旦确定了一个数字 , 那这个数字就必然只有对和错两种结果 , 不存在第三种的可能性 。
这类系统包括Oracle Hyperion、IBM Cognos以及智达方通Intcube EPM , 这些都是基于多维数据仓库的OLAP分析工具平台 。
二、数据分析的大致步骤
|面向初学者的数据分析知识,让你快速了解数据分析
本文插图

1. 确立目标
无论何时发生任何需求 , 我们首先都需要确定业务目标 , 评估情况 , 确定数据挖掘目标 , 然后根据需求生成项目计划 。 在此阶段定义业务目标 。
2. 寻找数据
对于进一步的过程 , 我们需要收集初始数据 , 描述和探索数据 , 最后验证数据质量以确保它包含我们所需的数据 。 从各种来源收集的数据将根据其应用和此阶段对项目的需求进行描述 , 这也称为数据浏览 , 对于验证所收集数据的质量是必要的 。
3. 数据整理
从最后一步收集的数据中 , 我们需要根据需要选择数据 , 对其进行清理 , 构造以获取有用的信息 , 然后将其整合在一起 。
最后 , 我们需要格式化数据以获取适当的数据 。 选择数据 , 清理数据并将其集成为最终确定的格式 , 以便在此阶段进行分析 。
4. 数据建模
收集数据后 , 我们对其进行数据建模 。 为此 , 我们需要选择一种建模技术 , 生成测试设计 , 构建模型并评估构建的模型 。 建立数据模型以分析数据中各种选定对象之间的关系 , 建立测试用例以评估模型 , 并在此阶段对数据进行测试和实施 。


推荐阅读