Spark SQL 到底咋搭建起来
把Spark二进制包下载并解压到某一台*nux的机器上,这段代码中‘/Users/jilu/Downloads/’这段换成你自己的路径,这就是单机执行SparkSQL的代码,在这个程序中,我已经创建好sqlContext了,以后的部分就是SparkSQL教程了。这是我更新完1.3版之后新改的程序,不出意外1.X的版本都是这样用的。PS:补充一下这个是Python API,不是Scala的。import osimport sysimport traceback# Path for spark source folderos.environ="/Users/jilu/Downloads/spark-1.3.0-bin-hadoop2.4"# Append pyspark to Python Pathsys.path.append("/Users/jilu/Downloads/spark-1.3.0-bin-hadoop2.4/python/")sys.path.append("/Users/jilu/Downloads/spark-1.3.0-bin-hadoop2.4/python/lib/py4j-0.8.2.1-src.zip")# try to import needed modelstry: from pyspark import SparkContextfrom pyspark import SparkConffrom pyspark.sql import SQLContext, Rowprint ("Successfully imported Spark Modules")except ImportError as e: print ("Can not import Spark Modules {}".format(traceback.format_exc())) sys.exit(1)# config spark envconf = SparkConf().setAppName("myApp").setMaster("local")sc = SparkContext(conf=conf)sqlContext = SQLContext(sc)
■网友
想快速建立一个hadoop+spark的环境, 你可以直接装cloudera 的 CDH。 他们把上面一切都很好的整合在一起了。如果还想更简单一点,装一个cloudera 的quickstart 虚拟机, Cloudera QuickStart VM。 一个虚拟机,什么都有了。
■网友
vm问题是太损性能如果集群要nb的机器***测试环境用docker好些 机器损耗小 普通macmini都可以搭出hadoop/spark最小三节点集群参考使用docker打造spark集群***生产环境未来生产环境部署hadoop/spark到物理机 应该情景不多多是云端的大数据处理paas例如azure的hdinsight(当然云端也可以用docker)节省成本 少维护 少硬件损耗(aws azure的数据流入流量都是不计费的)尽快上算法/应用才是王道spark在aws上已经能做到1tb数据-》1rmb成本了 基本大数据的运算量12tb 的spark运算成本是12rmb(节点无限伸缩)按照这个成本 自建hadoop/spark集群的硬件意义不大(这个百节点要上百万还有维护损耗 顶级国安或者军事金融部门的需求另说 当然如果有采购贪污需求的也另说其它行业正经做事不用云处理大数据是傻蛋)问题是大数据的场景何在 weblog 达到12tb/天的网站中国过不去10家嘿嘿
■网友
建议搜索顺序应该是:1、怎么搭建hadoop?2、怎么搭建hive?3、hive和mysql怎么互通?4、怎么安装scala?5、怎么搭建spark?6、怎么使用spark sql?循序渐进的话,版本坑的问题可以跳过很多。spark sql本来就算是hadoop生态系统里最顶层的了,路还得一步一步走。
■网友
楼上说的很对啊,你知道一个名词叫cdh就行了,去搭建这个呀,这不就简单了。
■网友
SparkSQL就是Spark的一个模块,只要成功安装了Hadoop和Spark,最后开发的时候在pom文件里加上SparkSQL的依赖,并且在代码里引SparkSQL的包就行了,所以关键还是搭Hadoop和Spark的集群,Hadoop2.6.0(现在已经出到2.7了)和Spark1.3.1的搭建教程网上都可以找到,照着教程一步步做就行了
推荐阅读
- 联运■连云港港全国首推集装箱铁水联运“一单到底”
- 汽车知识|第八代高尔夫到底值不值得买?1.4T自动Pro版全款多少钱?
- 人潮汹涌|丁真爆火第20天,到底谁才是真正的“幕后推手”?华春莹为他连发三推
- 微博目前已经支持文本,图片,位置分享,为啥没有语音和视频呢微博的pm肯定想过这两种微博形态,但迟迟不做的原因到底是啥。是语音和视频不符合产
- 什么|到底是什么原因?宝宝易咳嗽
- 京广和公司到底是干啥的
- 董洁|40岁的董洁到底怎么啦?少女造型被吐槽,女性的温柔感也不见了
- 中兴努比亚 Z5 的边框到底有多窄
- 汽车知识|西装暴徒的代表,40w就能拥有百万级别的声浪,到底是什么车
- 高圆圆|高圆圆高中时期到底有多美?班主任:至少有10个男生同时追她!