「Python」0.052秒打开100GB数据?这个Python开源库这样做数据分析( 四 )


我们看到上述所有三个分布都有相当长的尾部 。 尾部的某些值可能是合法的 , 而其他值可能是错误的数据输入 。 无论如何 , 让我们先保守下 , 只考虑fare_amount , total_amount和tip_amount少于$200的行程 。 我们还要求fare_amount , total_amount值大于$0 。
「Python」0.052秒打开100GB数据?这个Python开源库这样做数据分析
本文插图
最后 , 在初步清理完所有数据之后 , 让我们看看有多少出租车数据需要进行分析:
「Python」0.052秒打开100GB数据?这个Python开源库这样做数据分析
本文插图
还有超过11亿次旅行!大量的数据可以使你深入了解出租车行程背后的信息 。
「Python」0.052秒打开100GB数据?这个Python开源库这样做数据分析
本文插图
后记
此外 , 作者还从出租车司机最大化利润等角度利用Vaex进行分析数据 。 总之 , Vaex会帮你缓解可能面临的一些数据挑战的问题 。
有了 Vaex , 你可以在短短几秒内遍历超过 10 亿行数据 , 计算各种统计、聚合并产出信息图表 , 这一切都能在你的笔记本电脑上完成 。 它免费且开源 。
如果你对探索本文中用到的数据集感兴趣 , 可以直接在 S3 中配合 Vaex 使用它 , 请参阅完整的 Jupyter notebook 了解如何实现 。
Vaex 官方网站:https://vaex.io/
文档:https://docs.vaex.io/
GitHub:https : //github.com/vaexio/vaex
PyPi:https://pypi.python.org/pypi/vaex/
原文链接:
https://towardsdatascience.com/how-to-analyse-100s-of-gbs-of-data-on-your-laptop-with-python-f83363dda94
【end】
《原力计划【第二季】- 学习力挑战》正式开始!
即日起至 3月21日 , 千万流量支持原创作者更有专属【勋章】等你来挑战
「Python」0.052秒打开100GB数据?这个Python开源库这样做数据分析
本文插图

  • 机器学习新闻综述:2019年AI领域不得不看的6篇文章
  • 超30亿人脸数据被泄露 , 美国AI公司遭科技巨头联合“封杀”
  • 4600万英镑的“比特币鱼竿”!爱尔兰毒贩遗失藏有巨额比特币密钥的渔具
  • Rust 编译模型之殇
  • 狂赚 1200 亿 , 差点收购苹果 , 影响千万程序员 , 那个叫做太阳的公司却陨落了!
  • 【「Python」0.052秒打开100GB数据?这个Python开源库这样做数据分析】两成开发者月薪超 1.7 万、算法工程师最紧缺! | 中国开发者年度报告


推荐阅读