数据分析肯定需要数据 , 这个数据一般都是来自实际学习工作业务中的 , 比如学校的学生成绩 , 淘宝京东的销售数据 , 视频网站不同种类的视频播放点击量等 。
自己练习的话 , 除了可以去一些公开的数据网站下载一些数据外 , 也可以自己随机生成一些数据 , 下面就来自己生成随机500名学生成绩 , 为之后后面数据分析使用做准备 。
数据格式如下整个数据一共有6个类型 , 分别是["姓名","班级","性别","语文","数学","英语"] 。姓名需要500个不同的名字 , 班级一个5个 , 分数从1-100 。
文章插图
生成500个不同名字这么多名字肯定不能自己手打 , 先到百度找到百家姓 , 刚好100个 , 作为我们的第一个名字 。
文章插图
文章插图
接下来把这些名字分成一个个字符 , 这个直接利用字符索引就可以 , 但是这个字符串里面有空格 , 还有一些隐藏的符号 , 需要提前处理一下 , 用到字符串的替换就可以搞定 。
打印长度发现有126个字符 , 里面有换行符 , 空格 , 还有一个好像是中文的空格 , 管它啥 , 直接替换成空值 , 就相当于删除了 。
文章插图
使用replace进行替换删除操作 , 打印长度100 , 26个多余的都删除了 。
接下来在创建第一个名字 , 这里就简单的用"一二三四五"表示 , 循环拼接 , 生成500个名字 。
文章插图
如果想要打乱顺序的话 , 利用random.sample就可以了 。
文章插图
名字到这里就搞定了 。
生成每个学生数据学生有姓名 , 班级 , 性别 , 三科分数 , 这里全部利用循环生成 , 每个学生数据存为一个列表 , 一个是500个数据 , 最后添加到data里面 , 打印20组查看符合要求 。
文章插图
将生成的数据写入文件写入数据比较简单 , 利用pandas库直接创建一个DataFrame二维数据结构 , 利用to_Excel将整个数据写入文件 , 这里的index=False是为了不把自动索引写入 。
本地生成一个文件 , 打开查看 。
文章插图
读取文件查看数据利用read_excel读取之前的数据文件 , 打印查看数据的基本情况 。
文章插图
自己生成一个数据文件就到这了 , 数据来源一般除了自己生成 , 下载公开的数据文件 , 还有就是自己去网上爬取网站的数据了 。
【Python数据分析,生成随机数据文件】
推荐阅读
- 我用 Go语言 生成的随机数为什么不随机?随机数是怎样产生的
- Python+Pytest框架在Jenkins上生成Allure测试报告
- Python 抓取沪深A股重大公告,实现手机24小时实时监控!
- 在R、Python和Julia中常用的数据可视化技术
- 一篇文章掌握 Python 内置 zip 的全部内容
- 如何用 Python 清洗数据?
- Pycharm中Python Console与Terminal的区别
- 再见HTML ! 用纯Python就能写一个漂亮的网页
- 最受欢迎 12 个 Python 开源框架,你用过哪些?
- Python基础到高级,完整全套视频分享解析,学编程方法很重要