Spark SQL 到底咋搭建起来

把Spark二进制包下载并解压到某一台*nux的机器上,这段代码中‘/Users/jilu/Downloads/’这段换成你自己的路径,这就是单机执行SparkSQL的代码,在这个程序中,我已经创建好sqlContext了,以后的部分就是SparkSQL教程了。这是我更新完1.3版之后新改的程序,不出意外1.X的版本都是这样用的。PS:补充一下这个是Python API,不是Scala的。import osimport sysimport traceback# Path for spark source folderos.environ="/Users/jilu/Downloads/spark-1.3.0-bin-hadoop2.4"# Append pyspark to Python Pathsys.path.append("/Users/jilu/Downloads/spark-1.3.0-bin-hadoop2.4/python/")sys.path.append("/Users/jilu/Downloads/spark-1.3.0-bin-hadoop2.4/python/lib/py4j-0.8.2.1-src.zip")# try to import needed modelstry: from pyspark import SparkContextfrom pyspark import SparkConffrom pyspark.sql import SQLContext, Rowprint ("Successfully imported Spark Modules")except ImportError as e: print ("Can not import Spark Modules {}".format(traceback.format_exc())) sys.exit(1)# config spark envconf = SparkConf().setAppName("myApp").setMaster("local")sc = SparkContext(conf=conf)sqlContext = SQLContext(sc)
■网友
想快速建立一个hadoop+spark的环境, 你可以直接装cloudera 的 CDH。 他们把上面一切都很好的整合在一起了。如果还想更简单一点,装一个cloudera 的quickstart 虚拟机, Cloudera QuickStart VM。 一个虚拟机,什么都有了。
■网友
vm问题是太损性能如果集群要nb的机器***测试环境用docker好些 机器损耗小 普通macmini都可以搭出hadoop/spark最小三节点集群参考使用docker打造spark集群***生产环境未来生产环境部署hadoop/spark到物理机 应该情景不多多是云端的大数据处理paas例如azure的hdinsight(当然云端也可以用docker)节省成本 少维护 少硬件损耗(aws azure的数据流入流量都是不计费的)尽快上算法/应用才是王道spark在aws上已经能做到1tb数据-》1rmb成本了 基本大数据的运算量12tb 的spark运算成本是12rmb(节点无限伸缩)按照这个成本 自建hadoop/spark集群的硬件意义不大(这个百节点要上百万还有维护损耗 顶级国安或者军事金融部门的需求另说 当然如果有采购贪污需求的也另说其它行业正经做事不用云处理大数据是傻蛋)问题是大数据的场景何在 weblog 达到12tb/天的网站中国过不去10家嘿嘿
■网友
建议搜索顺序应该是:1、怎么搭建hadoop?2、怎么搭建hive?3、hive和mysql怎么互通?4、怎么安装scala?5、怎么搭建spark?6、怎么使用spark sql?循序渐进的话,版本坑的问题可以跳过很多。spark sql本来就算是hadoop生态系统里最顶层的了,路还得一步一步走。
■网友
楼上说的很对啊,你知道一个名词叫cdh就行了,去搭建这个呀,这不就简单了。
■网友
SparkSQL就是Spark的一个模块,只要成功安装了Hadoop和Spark,最后开发的时候在pom文件里加上SparkSQL的依赖,并且在代码里引SparkSQL的包就行了,所以关键还是搭Hadoop和Spark的集群,Hadoop2.6.0(现在已经出到2.7了)和Spark1.3.1的搭建教程网上都可以找到,照着教程一步步做就行了


    推荐阅读