Pandas教程( 二 )


data.Survived.value_counts(normalize=True).round(decimals=4) * 100061.62138.38Name: Survived, dtype: float64i) 评估数据集中是否存在缺失值 。
data.isnull().values.any()Truej) 使用isnull()得到缺失值的数目 。
data.isnull().sum()PassengerId0Survived0Pclass0Name0Sex0Age177SibSp0Parch0Ticket0Fare0Cabin687Embarked2dtype: int64k) 使用notnull()得到现有值的数目 。
data.notnull().sum()PassengerId891Survived891Pclass891Name891Sex891Age714SibSp891Parch891Ticket891Fare891Cabin204Embarked889dtype: int64l) 按变量列出的缺失值的百分比(%) 。
data.isnull().sum() / data.isnull().shape[0] * 100等同于
data.isnull().mean() * 100PassengerId0.000000Survived0.000000Pclass0.000000Name0.000000Sex0.000000Age19.865320SibSp0.000000Parch0.000000Ticket0.000000Fare0.000000Cabin77.104377Embarked0.224467dtype: float64m) 四舍五入(在示例中为2) 。
(data.isnull().sum() / data.isnull().shape[0] * 100).round(decimals=2)等同于
(data.isnull().mean() * 100).round(decimals=2)PassengerId0.00Survived0.00Pclass0.00Name0.00Sex0.00Age19.87SibSp0.00Parch0.00Ticket0.00Fare0.00Cabin77.10Embarked0.22dtype: float64n) 另外:用组合文本打印结果 。
print("The percentage of 'Age' is missing values:",(data.Age.isnull().sum() / data.Age.isnull().shape[0] * 100).round(decimals=2), "%")The percentage of 'Age' is missing values: 19.87 %print(f"The feature 'Age' has {data.Age.isnull().sum()} missing values")The feature 'Age' has 177 missing valuesprint("'Age' has {} and 'Cabin' has {} missing values".format(data.Age.isnull().sum(), data.Cabin.isnull().sum()))'Age' has 177 and 'Cabin' has 687 missing valueso) 形状、变量类型和缺失值的信息 。
data.info()
Pandas教程文章插图
p) 具体特征概述(下例中为“性别”和“年龄”) 。
data[['Sex','Age']].info()
Pandas教程文章插图
基本统计a) describe方法只给出数据的基本统计信息 。 默认情况下 , 它只计算数值数据的主统计信息 。 结果用pandas数据帧表示 。
data.describe()
Pandas教程文章插图
b) 添加其他非标准值 , 例如“方差” 。
describe = data.describe()describe.append(pd.Series(data.var(), name='variance'))
Pandas教程文章插图
c) 显示分类数据 。
data.describe(include=["O"])等同于
data.describe(exclude=['float64','int64'])等同于
data.describe(include=[np.object])


推荐阅读