「python训练营」数据分析：寻找Python最优计算性能 1、场景描述在数据统计分析过程中

1、场景描述在数据统计分析过程中，求累计值（总和）是最常用的统计指标之一，市面上的各种流行数据库均支持的查询方式基本如下：
selectsum(c)fromtable_name;
当数据量在小规模时， sum只是一瞬间的事情，让你感觉电脑真牛逼啊，我掰手指头要算半天的数，它居然可以这么快，下面是1万多条数据的字段求和，只用了8ms 。

文章图片
但是当数据量不断增长到一个量级时，比如说，先定个小目标：一亿条订单求总额，你可以尝试在常规的数据库上执行同样的语句需要多长时间。
在我的电脑上执行这样的查询，大约需要10s 。

文章图片
或者更大的量级，十亿、百亿、万亿？你一秒钟给我算出来，哈哈，电脑也算懵逼了。

文章图片
采用分布式存储、分布式计算，是目前解决大规模计算的通用方法，让你吃100个馒头，估计一礼拜也吃不完，做慈善，一人一个分给班里的同学，几分钟就没了，吃不完的那个放学别走。
2、举栗说明今天我们不讲分布式计算，先看看如何在单机上达到最优的计算性能。
以下的示例，用python语言模拟求1亿条订单金额的平均值。
大家注意：我国小学生以后的课程都有python了，在未来编程是个基本技能。
2.1首先用传统的ForLoop方式
还是一亿条数据跑分

文章图片
结果：

文章图片
看来也不快啊，花了十几秒， python在没有特定优化的前提下，比Java ， Go语言慢了不少。
2.2内置sum函数上场
不过我们知道python有内置的sum函数，是不是会快一点？让我们来试试：

文章图片
结果：

文章图片
不到十秒，快了一点点，但还是不理想。
2.3神兵numpy
听说有个numpy库，可以向量化（vectorization）执行各种运算，牵到台上看看：

文章图片
结果：

文章图片
哎呀48毫秒，真心牛逼啊，足足快了几百倍，比Go、Java都快，不信你可以自己写个Go语言的版本对比一下。
2.3没完
听说还有个叫numba的，看简写nb也很NB ，要不把刚才的那些再跑一遍瞧瞧：

文章图片
可以看出numba对ForLoop的提升明显，对内置sum和numpy向量化影响不大。
来个最终对比图，一目了然（柱子越低性能越好）：

文章图片
3、结论：磨刀不误砍柴工现在有些数据库为了满足OLAP的需求，已经集成了向量化处理，通过测评，的确是显著提高了数据分析统计的性能，限于篇幅，今天不在此展开了。

「python训练营」数据分析：寻找Python最优计算性能

推荐阅读

最高法：加大对瑞幸类似案件的处理力度

巴投价值投资学院|投资就像减肥，能让我们常胜不败的秘密就一个！

「君仕米林」阿萨德与叛军发生激烈冲突，叙利亚再次爆发激战！美力挺武装分子

春季养生小常识经典回放 2

去哪玩|而是离婚, 原因竟然是……，网爆范冰冰和李晨不是分手,

三独活浸酒方的功效与作用

28岁男士，前额头发掉不少，稀稀疏疏的。生姜用过，章光、香港发可旺治过。没多大改观，用哪种洗发水好点？

玉雕|1800万！这个最没存在感的玉种，早就悄悄拔尖了！

地球|地球会走向“极寒”？10年后太阳可能休眠，科学家争议没停过

一场越界“潮·革命”的诞生，奥买家全球购×爱奇艺潮流合伙人

已经熟了的猕猴桃能放冰箱里吗已经熟的猕猴桃可以放冰箱吗

华为|“复婚”高通下一个“华为”会不会是“荣耀”？

车家号|燃油车它香不香？，比亚迪

Excel函数公式■Excel函数公式：Text函数对数据格式的12个技巧，现学现用

这个女主持人，火了！

持股|12股遭陆股通减仓超30% 拓邦股份环比降幅最大

研究生出国留学申请哪家比较可靠

上海市交通委员会|市交通委行政服务中心与共建团支部开展“文明乘车迎进博，卫生保护你我他”志愿服务活动

消化疾病|肝不好，上厕所会有3个"怪像"，别不当回事，劝你尽早查CT

社会人什么意思(什么样的人一看就是社会人)