Pandas教程( 五 )
布尔索引:ilocdata.iloc[
a) 选择数据集的第4行 。
data.iloc[3]
文章插图
b) 从所有列中选择一个行数组 。
data.iloc[6:12]
文章插图
c) 从所有列中选择几行 。
data.iloc[[7,28,39],:]
文章插图
d) 从“Name”、“Age”、“Sex”和“Survived”列中选择一行 。
data.iloc[[7], [3,5,4,1]]
文章插图
e) 从多个列中选择多行 。
data.iloc[[7,28,39], [3,5,4,1]]
文章插图
f) 选择多行形成列序列 。
data.iloc[[7,28,39], 3:10]
文章插图
g) 选择其他值 。
data.iloc[6:13, -1]
data.iloc[:, [3,6]]
data.iloc[[7,28,39], 3:7]
data.iloc[-20:, -1:]
基本处理数据
文章插图
a) (删除nan值) 。
data.isnull().values.any()是否有丢失的数据?
True
如果没有将其分配到(新)变量中 , 则应该指定inplace=True , 以便更改能生效 。
data.dropna(axis=0, inplace=True) #从行中删除nandata.isnull().values.any() #是否有丢失的数据?
False
b) 删除列
data.drop(columns=['PassengerId', 'Name'], axis=1).head()
文章插图
c) value_counts也可以显示NaN值 。
data.Age.value_counts(dropna=False)
NaN17724.003022.002718.002628.0025... 36.50155.50166.00123.5010.421Name: Age, Length: 89, dtype: int64
d) 替换丢失值
new_df = data.copy()
计算年龄平均值:
new_df.Age.mean()
29.69911764705882
new_df['Age_mean'] = new_df.Age.fillna(new_df.Age.mean())
年龄的中值
new_df.Age.median()
28.0
用数据的中值填充任意NAN , 并将结果分配给一个新列 。
new_df['Age_median'] = new_df.Age.fillna(new_df.Age.median())
推荐阅读
- 111完美邮箱上线,定位“年轻人的专属邮箱”
- 给你的iPhone12全方位保护:6款手机保护壳横评
- 华云大咖说 云计算云运维浅谈
- 在线音乐用户寄望用爱发电,资本不愿无米之炊
- 36岁,我在大厂,和先生养育“互联网孤儿”
- 虾米音乐,下个月正式停止服务
- 支付宝年账单来了,你可能错失了一套房……
- 河北省首家“政策智通”计算器正式上线
- “全能神”开发谷歌应用APP传播邪教教义
- 向美国靠拢?瑞典绕开华为部署5G!华为已2次起诉