Pandas教程( 三 )
文章插图
d) 通过传递参数include='all' , 将同时显示数字和非数字数据 。
data.describe(include='all')
文章插图
e) 别忘了通过在末尾添加.T来转置数据帧 。 这也是一个非常有用的技巧
data.describe(include='all').T
文章插图
f) 百分位数1%、5%、95%、99% 。 正如预期的那样 , 它将只计算数字特征的统计信息 。
data.quantile(q=[.01, .05, .95, .99])
文章插图
g) 摘要统计
- 显示某些特征的唯一值 。
data.Embarked.unique()
array(['S', 'C', 'Q', nan], dtype=object)
- 计算某个特征的唯一值的总和 。
data.Sex.nunique()
2
- 计算总值
data.count()
PassengerId891Survived891Pclass891Name891Sex891Age714SibSp891Parch891Ticket891Fare891Cabin204Embarked889dtype: int64
- 某些特征的最大值
data.Age.max()
80.0
- 某些特征的最小值
data.Age.min()
0.42
- 某些特征的平均值
data.Age.mean()
29.69911764705882
- 某些特征的中值
data.Age.median()
28.0
- 某些特征的第99分位数
data.Age.quantile(q=[.99])
0.9965.87Name: Age, dtype: float64
- 某些特征的标准差
data.Age.std()
14.526497332334044
- 某些特征的方差
data.Age.var()
211.0191247463081
h)额外问题1-显示分类特征“Embarked”最常见的两个值 。
data[‘Embarked’].value_counts().head(2)
S644C168Name: Embarked, dtype: int64
问题2-“Embarked”的百分比最高是多少?top_unique = data['Embarked'].value_counts(normalize=True)[0]print(f'{top_unique:.2%}')
72.44%
i) 变量之间的相关性 。 正如预期的那样 , 它将只显示数值数据的统计信息 。data.corr()默认情况下的皮尔逊相关性
文章插图
J) 所选变量(示例中为“Survived”)与其他变量之间的相关性 。
correlation = data.corr()correlation.Survived.sort_values().sort_values(ascending=False) # 有序值
Survived1.000000Fare0.257307Parch0.081629PassengerId-0.005007SibSp-0.035322Age-0.077221Pclass-0.338481Name: Survived, dtype: float64
调整数据a) 列出列的名称 。data.columns
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'], dtype='object')
推荐阅读
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
- 111完美邮箱上线,定位“年轻人的专属邮箱”
- 给你的iPhone12全方位保护:6款手机保护壳横评
- 华云大咖说 云计算云运维浅谈
- 在线音乐用户寄望用爱发电,资本不愿无米之炊
- 36岁,我在大厂,和先生养育“互联网孤儿”
- 虾米音乐,下个月正式停止服务
- 支付宝年账单来了,你可能错失了一套房……
- 河北省首家“政策智通”计算器正式上线
- “全能神”开发谷歌应用APP传播邪教教义
- 向美国靠拢?瑞典绕开华为部署5G!华为已2次起诉