Pandas教程( 三 )


Pandas教程文章插图
d) 通过传递参数include='all' , 将同时显示数字和非数字数据 。
data.describe(include='all')
Pandas教程文章插图
e) 别忘了通过在末尾添加.T来转置数据帧 。 这也是一个非常有用的技巧
data.describe(include='all').T
Pandas教程文章插图
f) 百分位数1%、5%、95%、99% 。 正如预期的那样 , 它将只计算数字特征的统计信息 。
data.quantile(q=[.01, .05, .95, .99])
Pandas教程文章插图
g) 摘要统计

  • 显示某些特征的唯一值 。
data.Embarked.unique()array(['S', 'C', 'Q', nan], dtype=object)
  • 计算某个特征的唯一值的总和 。
data.Sex.nunique()2
  • 计算总值
【Pandas教程】data.count()PassengerId891Survived891Pclass891Name891Sex891Age714SibSp891Parch891Ticket891Fare891Cabin204Embarked889dtype: int64
  • 某些特征的最大值
data.Age.max()80.0
  • 某些特征的最小值
data.Age.min()0.42
  • 某些特征的平均值
data.Age.mean()29.69911764705882
  • 某些特征的中值
data.Age.median()28.0
  • 某些特征的第99分位数
data.Age.quantile(q=[.99])0.9965.87Name: Age, dtype: float64
  • 某些特征的标准差
data.Age.std()14.526497332334044
  • 某些特征的方差
data.Age.var()211.0191247463081h)额外
问题1-显示分类特征“Embarked”最常见的两个值 。
data[‘Embarked’].value_counts().head(2)S644C168Name: Embarked, dtype: int64问题2-“Embarked”的百分比最高是多少?
top_unique = data['Embarked'].value_counts(normalize=True)[0]print(f'{top_unique:.2%}')72.44%i) 变量之间的相关性 。 正如预期的那样 , 它将只显示数值数据的统计信息 。
data.corr()默认情况下的皮尔逊相关性
Pandas教程文章插图
J) 所选变量(示例中为“Survived”)与其他变量之间的相关性 。
correlation = data.corr()correlation.Survived.sort_values().sort_values(ascending=False) # 有序值Survived1.000000Fare0.257307Parch0.081629PassengerId-0.005007SibSp-0.035322Age-0.077221Pclass-0.338481Name: Survived, dtype: float64调整数据a) 列出列的名称 。
data.columnsIndex(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'], dtype='object')


推荐阅读