大数据入门—读取12.5亿行数据的简单代码大数据意义

大数据意义，使用Python有效读取和可视化12.5亿行Galaxy模拟数据如今，我们正在进入许多时代。有人说我们处于颠覆时代。为了理解这一点，我们可以使用Schwartz（1999）在他的书《数字达尔文主义》中使用的术语。该术语描述了我们正在进入一个企业无法适应技术和科学发展的时代。数字平台和全球化改变了客户的范式并改变了他们的需求。
另一方面，有人说我们正在进入大数据时代。几乎所有学科都对数据蓬勃发展具有经验。天文学就是其中之一。世界各地的天文学家意识到，他们需要建造越来越大的望远镜或天文台，以在一个财团中收集更多数据。例如，在2000年初，一项名为2 Micron All Sky Survey（2MASS）的全天空调查收集了大约4.7亿个对象。2016年中，天文望远镜盖亚（Gaia）发布了第二次数据发布，其中包含约17亿个对象。天文学家如何处理呢？
在本文中，我们将讨论如何实际处理大数据。我们将使用来自盖亚宇宙模型快照（GUMS）的银河模拟数据。它具有约35亿个对象。您可以在这里访问它。例如，我们将仅读取12.5亿行。
用Vaex读取10亿行
首先，我必须感谢Maarten Breddels构建了Vaex ，这是一个用于读取和可视化大数据的python模块。它可以在一秒钟内读取10亿行。您可以在此处阅读文档。
Vaex将有效地读取hdf5和arrow格式的文件。在这里，我们将使用一些hdf5文件。要在Vaex中读取文件，您可以使用以下代码
import vaex as vx
df = vx.open('filename.hdf5')
但是，如果您想同时读取一些hdf5文件，请使用此代码
df = vx.open_many(['file1.hdf5', 'file2.hdf5'])
您可以分析下图。
文章插图
【大数据入门—读取12.5亿行数据的简单代码】> Read 1.2 billion of rows (Image by author)
变量文件是工作目录中所有hdf5文件的数组。您可以检查所需的时间以在1秒内读取所有文件。在下一行中，我检查行的总数。它是12.5亿行。
Vaex中的算术运算和虚拟列
您还可以快速对所有行进行一些算术运算。这是例子
文章插图
> Arithmetical operation in Vaex (Image by author)
Vaex可以以毫秒为单位执行算术运算，将其应用于所有行（12.5亿）。如果要在Vaex数据框中分配列，则可以使用此代码
df['col_names'] = someoperations
这是例子
文章插图
> Arithmetical operation in Vaex (Image by author)
如果仔细阅读，代码类似于Pandas API 。是的，据我所知， Vaex正在与Pandas使用相同的API 。您也可以像在Pandas中一样选择列，例如此代码
df_selected = df[df.ag, df.age, df.distance]
返回上图，在第14行，添加了新列，名称为" new_col" 。仅需2.07毫秒。
一维和二维合并
您是否需要将装仓统计信息快速应用于大数据中？ Vaex也将是答案。要进行一维装仓和打印，可以使用以下代码
df.plot1d(x-axis, shape=(number_of_bin))
这是我们数据的例子
文章插图
> 1D binning with Vaex (Image by author)
我们将一格数为25的一列距离绘制为一维（直方图）。它将产生一个这样的数字。Vaex大约需要2秒钟才能可视化一维绘图。
文章插图

大数据入门—读取12.5亿行数据的简单代码

推荐阅读

美国|轮到中方行动了！蓬佩奥没料到，对华疯狂出手后，美反遭三重打击

娱乐小羊宝|妹子，这回你不能饶了他，否则下次他还会搞笑的，搞笑GIF:

『新发现杂志』大数据时代可怕的能耗

明星八卦|演禁片成名，艳压群芳拿影后，这个「双面」尤物，才是真正的女神

2021年八月出生的鼠宝宝取名-2021年八月出生宝宝取名禁忌

『西安』成渝、南京、西安、福州被点名？你可能想简单了

梅花自健康|不是山药，平时可劲吃，健脾胃，排湿气，补脾王被发现

基层最高检：基本实现行政非诉执行违法情形监督全覆盖

西方无神论者的婚礼怎样进行

手机中毒者联想现在无手机可卖，怪不得这个618消失了呢？

说自己是钮祜禄是什么梗？钮祜禄是什么梗钮祜禄梗的意思？

十月一烧纸能提前吗七月十五可以提前几天烧纸

黑暗之魂|PS5《黑暗之魂》数字豪华版特典公开，11月重回帕雷塔尼亚

什么鱼可以做生鱼片(日本生鱼片种类)

南京雨花茶是什么茶？

为什么长江叫“江”，黄河叫“河”？江和河究竟有什么区别？

旅游|长白山突然发生山体滑坡：游客飞奔避险逃命

无人机创客教育进入课堂，“创客火”编程无人机助推落地

「中新网」法国东南部遭暴雨侵袭引发洪灾已致6人遇难

问董秘|贵公司是否有措施...，投资者提问：贵公司近期是否有增持或扩股计划？在证监处罚后