大数据核心技术都有哪些? 大数据技术有哪些

大数据技术有哪些(大数据的核心技术有哪些?)
说到大数据的起源 , 重要的是说三遍 。只有需求才能产生市场 , 只有满足需求的技术才有生命力和价值 。
大数据技术无疑是有价值的 , 因为它的产生正是因为市场需求 。随着移动互联网时代的到来 , 手机已经成为人们身体的一部分 。人们每天花在手机上的时间比睡觉和工作的时间还多 , 一举拿下第一名 。因此 , 人们在手机上留下了大量的数据 。这些数据包括购物、聊天、刷短视频、听歌、旅游、理财、玩游戏、看新闻、学习、外卖 , 甚至与工作相关的数据 。这些不计其数的数据共同构成了一个又一个生动的数字 。否则 , 行业里总有一个传说在流传:大数据比自己更了解你 。
然而 , 要将这些留在移动互联网上的数据转化为有意义的结论 , 需要很多步骤来处理 , 而这些步骤正是大数据技术的核心 。
第一步是收集数据 。如果不收集数据 , 就像农田里的庄稼不收割 , 过时的资源网络就会腐烂 。移动互联网上的数据收集与农作物中的数据收集不太一样 , 因为移动互联网中的数据类型非常丰富 , 有结构化的 , 也有非结构化的 , 有的存在于数据库中 , 有的存在于日志文件中 。大数据技术的第一步是收集所有这些有用的数据或看似有用的数据 , 为下一步的处理做准备 。以Hadoop家族为例 , 见下图:
Hadoop家族
常用的工具有Sqoop、Flume等 , 既可以将数据库中的数据导入HDFS , 也可以收集和处理日志 。
接下来 , 我们需要对收集的数据进行预处理 。什么是预处理?就像收获的农作物一样 , 在加工前必须干燥两天 。数据也是如此 。收集的数据需要清理、合并和转换 。还有一个专门的术语叫做ETL , 全称是extract-transform-load , 和extract-transform-load 。这里的概念非常不同 , 包括ETL、数据清理和数据集成 。但是在概念上有一些偏差 , 基本上属于预处理步骤 , 相当于我们正式下厨之前收拾好菜品 。
同时 , 还有大数据的存储 。大数据的核心思想来了 , 就是分布式 。分布式的思想可以追溯到很久以前的资源网络 , 具体发明者一直无法验证 。然而 , 历史上没有一个时代能像今天这样在技术中使用分布式思想 。大数据的存储是通过分布式存储实现的 。实际上 , 我们通常使用分布式的思想来工作:例如 , 如果我们要运输一批煤 , 一辆车需要一个月的时间来运输 。时间不够怎么办?然后分两车运输;两车需要半个月发货 , 但是时间还是有点晚 。我该怎么办?多加几辆车 , 10辆够吗?三天内将装运十辆汽车 。这就是分配的思想 。同样 , Hadoop中最重要的发明HDFS是分布式文件系统 , 这也是Hadoop技术中实现分布式存储的关键 。有了HDFS , 数据可以很容易地存在于大量的分布式存储集群中 , 而且都是通用的存储设备 , 所以价格不会太香 。
分布式存储打破了垄断 。
换句话说 , 大数据技术发展的原因不仅仅是移动互联网到来带来的数据生成爆炸 , 还有成本的压力 。无论是谷歌、脸书、AWS , 还是中国的阿里腾讯 , 本质上都是互联网公司 。和传统行业一样 , 他们都是IT行业的客户 。他们还想购买服务资源网络服务器、存储和数据库 。而且 , 他们还是大客户 , 因为他们的需求非常大 , 非常大 , 难以想象 。
众所周知 , 互联网巨头虽然利润很高 , 但都是从小公司成长起来的 。更何况 , 互联网赚钱的方式无非是会员制和广告 。你看不到有多少互联网公司还在努力盈利 。因此 , 互联网公司非常有动力钻研各种省钱的方法 。
这一次 , 大数据技术让整个architecture能够部署在廉价的通用服务器上 , 让一些IT巨头不再需要卡脖子 , 不再需要承担为传统IT巨头打工的命运 。
只是题外话 , 回到大数据 。然后是数据开发 。根据业务的不同 , 一般可以分为线下开发和实时开发 。使用哪一种取决于业务的及时性 。这个不用多说 , 时效性需求一目了然 。实现的工具更加丰富 , 从开源软件到商业软件应用 , 甚至出现了微弱的内卷化迹象 。这里有一个开源Hadoop的例子 。MapReduce、Spark和Storm是开发人员最常用的开发工具 。


推荐阅读