4点做好数据分析数据分析实战案例 _小知识

这是一个经典案例，很多博主都写过。对，就是这个:泰坦尼克号存活率分析。是关于kaggle的问题。通过对机上乘客的信息分析和建模，可以预测哪些乘客会生还。
我们非常粗暴地对这个数据集做一个简单的分析。
工具:Excel(没错就是这么简单粗暴)
一、明确目的 1912年，泰坦尼克号撞上冰山沉没，船上2224名乘客和船员中有1502人遇难。幸存者是时运不济还是某种规律使然？我们更关心这个，所以要问以下几个问题:
那些人有可能活下来吗？
其次，要理解数据，数据集总共有以下几个字段，其中姓名、性别、舱位、上船和船票是字符串类型；虽然pclass和survived是数值类型，但是它们的含义是标签。我们分别从客舱、乘客、机票、区域等维度进行分析。
二、数据处理经核对，发现船龄、票价、上船、舱位等字段均缺失。我们一个一个来看。
1、age缺失值处理年龄筛选栏中有263条数据列为空，缺失率为20%，均可作为年龄的均值或众数填写，或者进一步分析显示，三等舱缺失数据最多，占总缺失数据的79%，而三等舱存活男性最多，因此也可用三等舱的平均年龄来填写。
这里为了保持数据的真实性，我们不需要填写。
2、fare缺失值处理筛选发现fare(票价)只缺少一个值。我们找了出来，发现可以用同类型的均值来填。
因此，我们为年龄大于60岁且登机港口为S的三等男性选择平均票价7，以填补这一缺失值。
3、embarked缺失值处理 “已装船的装船港”字段中也缺少两个值。把它们过滤出来看看。
进一步观察到这两个乘客都是单独出行，没有家庭成员(从sibsp和parch列得知都是0)，所以我们延续处理票价缺失值的思路，寻找同类型来填充。对于第一位乘客，在头等舱35~40岁的女性中，填入端口最多的值，结果为s 。
同理，对于第二位乘客来说，头等舱60~65岁的女性中，落地值最多，结果也是s 。
4、cabin缺失值处理舱场缺失值已达77% 。如果缺失的值太多，我们就不填了，只保留或者删除。让我们把他们留在这里。
三、数据分析
1、舱位维度 pclass分析客舱和生存情况，并将其插入数据透视表。
幸存者中，一等的比例已经达到40% 。
根据各舱生存死亡的百分比累积柱状图可以看出，一等舱幸存者所占比例最大，达到61.92%，三等舱幸存者所占比例最小，只有25.33%，所以还是那句老话，虽然钱不是万能的，但是没钱@ #% &…
卡尔平通过卡尔平(船舱编号)的透视，我们可以看到有295个唯一值，基本上，只有一个人住在一个船舱里。
但是也发现有一个舱对应两个人以上。进一步对比发现，三等舱的值很小，说明卡宾的缺失值大部分都在三等舱缺失，也就是说三等舱的人没有舱？大同店？这需要进一步验证。
另外发现三等舱所有舱号都是E/F/G开头，而一等舱A/B/C较多。据推测，随着船舱空间的减小，船舱编号按字母升序排列。
2、乘客维度姓名姓名一栏没有什么有价值的信息，但可以进一步认为姓名实际上是与头衔相对应的，比如先生是已婚男士，太太是已婚女士等。，但这里会先删除。
sex分析了性别和生存状况。
女性占幸存者的67.8%，远高于男性的32.2% 。
女性幸存者人数占女性总人数的72.75%，远远大于男性幸存者人数占男性总人数的19.10% 。
性别&空间顺便可以看看空间和性别的关系。因为男性人口基数大，无论哪个空间，男性数量都比女性多。同样，每个空间中获救的雌性数量最多。
但第一班女性的存活率为97%，远高于其他两个班，第三班女性的存活率仅为49% 。
年龄分析年龄和生存情况。由于年代缺失，这里只分析有数值的。
首先对年龄做一个简单的描述性统计。使用数据分析中的描述性统计函数，可以看到最大年龄80岁，最小年龄0.17岁，平均年龄29.88岁，中位年龄28岁，众数24岁。
进一步，我们可以观察年龄分布，做一个直方图。我们可以看到，乘客年龄以15-30岁为主，其中以20-25岁的年轻人最多。
了解了年龄的大致分布后，还要看具体人群的生存状况。我们将年龄分为:
少年（0~15岁）青年（15~40岁）中年（41~65岁）老年（66岁以上）先做一个分组表，利用vlookup的模糊匹配实现分组。
在年龄旁边，新建一个年龄分组的辅助列，输入公式。
=VLOOKUP(E2,Sheet2!$B$18:$C$21,2,1) Sheet2！18:21这个区域就是上图中预设的分组区域。

4点做好数据分析数据分析实战案例

推荐阅读

路口新出现一种指示牌，驾校都没学过，半月上百人违章

八佰这部万众期待的影片，如今口碑持续下滑，既然都是真实事件改编也同样都是战争电影

红烧茄丁炒面，简单也有食欲！

利盛证券|周线看方向，日线看买卖”，真正的钱生钱，“月线看趋势

按钮iPhone 12最新渲染图爆出，或将取消固态静音按钮

女人梦到鸟是什么征兆梦到小鸟是什么意思

冬天，宝妈多注意孩子这两个部位，若特别凉，说明孩子身体非常冷

幽默段子|暮秋微寒，轻熟风穿搭示范，甜暖温柔演绎精致女人味

「印度」印度在联合国大获全胜，184票支持只有8票反对，谁也没法改变现状！

动车票上的04车08d号动车04车厢08d号怎么找

衣服褪色怎么洗衣服褪色怎么洗妙招

生科医学|家长能否陪护儿童感染者？上海回应：阳性可以

樱花草好养吗樱花草的养殖方法和日常养护小常识

白族民歌文化介绍

上吊自杀|痛心：63岁外婆与13岁外孙在家中上吊自杀！

调查发现用户更青睐老款、低价 iPhone

自恋在我们的社会中真的很普遍吗

近百考生被查处！三地通报…

新华网微信公号|这个假期，太难忘了！

鬼才狗仔|宋茜这是什么魔鬼身材？开衫搭半身裙胸部以下全是腿

4点做好数据分析 数据分析实战案例

推荐阅读

4点做好数据分析数据分析实战案例