Pandas教程
文章插图
作为每个数据科学家都非常熟悉和使用的最受欢迎和使用的工具之一 , Pandas库在数据操作、分析和可视化方面非常出色
为了帮助你完成这项任务并对Python编码更加自信 , 我用Pandas上一些最常用的函数和方法创建了本教程 。 我真心希望这对你有用 。
目录
- 导入库
- 导入/导出数据
- 显示数据
- 基本信息:快速查看数据
- 基本统计
- 调整数据
- 布尔索引:loc
- 布尔索引:iloc
- 基本处理数据
泰坦尼克号的数据集可以在这里下载:
导入库为了我们的目的 , “Pandas”库是必须导入的
import pandas as pd
导入/导出数据“泰坦尼克号数据集”指定为“data” 。a) 使用read_csv将csv文件导入 。 你应该在文件中添加数据的分隔符 。
data = http://kandian.youth.cn/index/pd.read_csv("file_name.csv", sep=';')
b) 使用read_excel从excel文件读取数据 。data = http://kandian.youth.cn/index/pd.read_excel('file_name.xls')
c) 将数据帧导出到csv文件 , 使用to_csvdata.to_csv("file_name.csv", sep=';', index=False)
d) 使用“to_excel”将数据框导出到excel文件 。data.to_excel("file_name.xls′)
显示数据a) 正在打印前n行 。 如果没有给定 , 则默认显示5行 。data.head()
文章插图
b) 打印最后“n”行 。 下面 , 显示最后7行 。
data.tail(7)
文章插图
基本信息:快速查看数据
a) 显示数据集的维度:总行数、列数 。
data.shape
(891 , 12)b) 显示变量类型 。
data.dtypes
PassengerIdint64Survivedint64Pclassint64NameobjectSexobjectAgefloat64SibSpint64Parchint64TicketobjectFarefloat64CabinobjectEmbarkedobjectdtype: object
c) 按升序值显示变量类型 。data.dtypes.sort_values(ascending=True)
PassengerIdint64Survivedint64Pclassint64SibSpint64Parchint64Agefloat64Farefloat64NameobjectSexobjectTicketobjectCabinobjectEmbarkedobjectdtype: object
d) 按类型对变量计数 。data.dtypes.value_counts()
object5int645float642dtype: int64
e) 按升序值对每种类型计数 。data.dtypes.value_counts(ascending=True)
float642int645object5dtype: int64
f) 以绝对值检查生存者与非生存者的数量 。data.Survived.value_counts()
05491342Name: Survived, dtype: int64
g) 检查特征的比例 , 以百分比表示 。data.Survived.value_counts() / data.Survived.value_counts().sum()
与以下相同:data.Survived.value_counts(normalize=True)
00.61616210.383838Name: Survived, dtype: float64
h) 检查特征的比例 , 以百分比表示 , 四舍五入 。
推荐阅读
- 111完美邮箱上线,定位“年轻人的专属邮箱”
- 给你的iPhone12全方位保护:6款手机保护壳横评
- 华云大咖说 云计算云运维浅谈
- 在线音乐用户寄望用爱发电,资本不愿无米之炊
- 36岁,我在大厂,和先生养育“互联网孤儿”
- 虾米音乐,下个月正式停止服务
- 支付宝年账单来了,你可能错失了一套房……
- 河北省首家“政策智通”计算器正式上线
- “全能神”开发谷歌应用APP传播邪教教义
- 向美国靠拢?瑞典绕开华为部署5G!华为已2次起诉