有哪些数据分析的模板和案例
介绍一种常用的数据分析模板:Split-Aplly-Combine
这个数据处理模式的3个英文词词代表了数据处理的一种通用模板方法,我们分开来看,首先Split是对数据进行分组,具体来讲就是按照某种规则对数据进行分组。
好比,你高考完,进入大学去学习,进大学报到的第一天,学校会对你按照报考专业进行分组,每个进入大学的人都按照专业分组,比如你是计算机专业组的,你是数学专业组的。
我们再来看Apply,是指对分组后的数据进行操作,比如求平均值,求标准差等等。因为是分组计算,所以每一组都会有个计算结果。例如你所在的大学有2个专业,分别是计算机专业,数学专业。对每个专业的学生进行普通话考试,那么这里的普通话考试就是对每组数据进行函数计算。
Combine是对第2步Apply的计算结果进行汇总。因为涉及到对个组,所以要对每个组的计算结果汇总。
我们来看下面图片中的一个更详细的例子:
假设我们的数据分析目标是:分析航班航行距离与延误时间的关系。
是航行距离越长,飞机越容易延误呢?还是航行距离越短,飞机越容易延误呢?更进一步,航行距离与延误时间是线性关系,还是非线性关系呢?
这里我们关注两个变量航行距离,同样的航行距离在航班里就是指到达同样的目的地,那么飞行到达同一目的的航班就可以归为一组数据,因为同一组的数据航行距离相同。
接下来图片中我们做第一步数据分组:
按照飞行目的地,我们将数据分为两组,一组是达到北京的所有航班,他们的飞行距离都是4000英里,共有3条数据
两一组是到达上海的航班,他们的飞行距离都是5000英里,共有2条数据。
下面图片是对分组的两组数据分别应用函数Apply
我们分别对两组数据求航班平均延误时间,和平均距离。
对于到达北京的航班,我们看平均延误时间是200分钟,平均距离是4030英里。
对于到达上海的航班,我们平均延误时间是250分钟,平均距离5050。
完成第2步Apply后,我们看最后一步组合结果。
组合结果就是将每组数据的计算结果合并到一张表里。
这样我们就得到了航行距离,与到达延误时间的表。这张表按目的地分组,并计算出了不同目的地的平均延误时间和平均距离。
这个模板在各个数据分析的编程语言中也有对应的实现。如果你想更详细的了解如何使用R语言中的dplyr包来实现上面整个计算过程。可以在我的微信公众号中回复“书单”获得全部源代码。
■网友
本人跨专业转到互联网行业,从数据分析工程师做起,目前是算法工程师。做数据分析业务时所用语言有Python和R,感觉用的最爽的还是Python。根据这几年用Python做数据分析的经验教训,现将心得体会整理为业务案例总结如下。
以下是Python进行数据分析和机器学习的一个简单流程。
1.简单的数据描述
拿到一个数据集后,首先用Pandas包数据框的info()方法观察,数据的总体情况,查看维度大小、各个特征是字符串信息还是数值信息、有无缺失值等情况,如下图所示。
推荐阅读
- 医院|感染艾滋病毒初期有哪些征兆?可以自行检查吗?共用马桶会传染吗
- 玩游戏花钱最多的有哪些游戏,哪些人
- 旅行|需要准备哪些物品?全面冬季出游清单,建议收藏带宝宝出门旅行
- 红米手机通过QQ空间的成功营销,给涉足社会化营销的企业有哪些启示
- 互联网在线音乐行业有哪些可能的盈利模式
- 直播会成为品牌传播的另一个途径么有哪些可行的方法感觉有戏又没头绪好捉急。
- 侧重业务逻辑的产品需求规格说明书,需要有哪些要点
- 大学|上海大学第8,前10名有哪些高校?上海市30所大学排名
- 学图像处理有哪些不错的书推荐
- 新浪微博创新基金投资了哪些团队