4点做好数据分析 数据分析实战案例

这是一个经典案例,很多博主都写过 。对,就是这个:泰坦尼克号存活率分析 。是关于kaggle的问题 。通过对机上乘客的信息分析和建模,可以预测哪些乘客会生还 。
我们非常粗暴地对这个数据集做一个简单的分析 。
工具:Excel(没错就是这么简单粗暴)
一、明确目的 1912年,泰坦尼克号撞上冰山沉没,船上2224名乘客和船员中有1502人遇难 。幸存者是时运不济还是某种规律使然?我们更关心这个,所以要问以下几个问题:
那些人有可能活下来吗?
其次,要理解数据,数据集总共有以下几个字段,其中姓名、性别、舱位、上船和船票是字符串类型;虽然pclass和survived是数值类型,但是它们的含义是标签 。我们分别从客舱、乘客、机票、区域等维度进行分析 。
二、数据处理 经核对,发现船龄、票价、上船、舱位等字段均缺失 。我们一个一个来看 。
1、age缺失值处理 年龄筛选栏中有263条数据列为空,缺失率为20%,均可作为年龄的均值或众数填写,或者进一步分析显示,三等舱缺失数据最多,占总缺失数据的79%,而三等舱存活男性最多,因此也可用三等舱的平均年龄来填写 。
这里为了保持数据的真实性,我们不需要填写 。
2、fare缺失值处理 筛选发现fare(票价)只缺少一个值 。我们找了出来,发现可以用同类型的均值来填 。
因此,我们为年龄大于60岁且登机港口为S的三等男性选择平均票价7,以填补这一缺失值 。
3、embarked缺失值处理 “已装船的装船港”字段中也缺少两个值 。把它们过滤出来看看 。
进一步观察到这两个乘客都是单独出行,没有家庭成员(从sibsp和parch列得知都是0),所以我们延续处理票价缺失值的思路,寻找同类型来填充 。对于第一位乘客,在头等舱35~40岁的女性中,填入端口最多的值,结果为s 。
同理,对于第二位乘客来说,头等舱60~65岁的女性中,落地值最多,结果也是s 。
4、cabin缺失值处理 舱场缺失值已达77% 。如果缺失的值太多,我们就不填了,只保留或者删除 。让我们把他们留在这里 。
三、数据分析
1、舱位维度 pclass分析客舱和生存情况,并将其插入数据透视表 。
幸存者中,一等的比例已经达到40% 。
根据各舱生存死亡的百分比累积柱状图可以看出,一等舱幸存者所占比例最大,达到61.92%,三等舱幸存者所占比例最小,只有25.33%,所以还是那句老话,虽然钱不是万能的,但是没钱@ #% &…
卡尔平通过卡尔平(船舱编号)的透视,我们可以看到有295个唯一值,基本上,只有一个人住在一个船舱里 。
但是也发现有一个舱对应两个人以上 。进一步对比发现,三等舱的值很小,说明卡宾的缺失值大部分都在三等舱缺失,也就是说三等舱的人没有舱?大同店?这需要进一步验证 。
另外发现三等舱所有舱号都是E/F/G开头,而一等舱A/B/C较多 。据推测,随着船舱空间的减小,船舱编号按字母升序排列 。
2、乘客维度 姓名姓名一栏没有什么有价值的信息,但可以进一步认为姓名实际上是与头衔相对应的,比如先生是已婚男士,太太是已婚女士等 。,但这里会先删除 。
sex分析了性别和生存状况 。
女性占幸存者的67.8%,远高于男性的32.2% 。
女性幸存者人数占女性总人数的72.75%,远远大于男性幸存者人数占男性总人数的19.10% 。
性别&空间顺便可以看看空间和性别的关系 。因为男性人口基数大,无论哪个空间,男性数量都比女性多 。同样,每个空间中获救的雌性数量最多 。
但第一班女性的存活率为97%,远高于其他两个班,第三班女性的存活率仅为49% 。
年龄分析年龄和生存情况 。由于年代缺失,这里只分析有数值的 。
首先对年龄做一个简单的描述性统计 。使用数据分析中的描述性统计函数,可以看到最大年龄80岁,最小年龄0.17岁,平均年龄29.88岁,中位年龄28岁,众数24岁 。
进一步,我们可以观察年龄分布,做一个直方图 。我们可以看到,乘客年龄以15-30岁为主,其中以20-25岁的年轻人最多 。
了解了年龄的大致分布后,还要看具体人群的生存状况 。我们将年龄分为:
少年(0~15岁) 青年(15~40岁) 中年(41~65岁) 老年(66岁以上)先做一个分组表,利用vlookup的模糊匹配实现分组 。
在年龄旁边,新建一个年龄分组的辅助列,输入公式 。
=VLOOKUP(E2,Sheet2!$B$18:$C$21,2,1) Sheet2!18:21这个区域就是上图中预设的分组区域 。


推荐阅读