大数据利器：Spark的单机部署与测试笔记正受到广泛的据利机部记关注

2024-06-28 19:08:03 [百科] 来源：避面尹邢网

大数据利器：Spark的大数的单单机部署与测试笔记

作者：hijiangtao 2014-05-16 10:55:47数据库 Spark Spark作为最有可能代替mapreduce的分布式计算框架，正受到广泛的据利机部记关注。相比Hadoop来说，署测试笔Spark的大数的单中间计算结果存于内存无疑给计算过程节省了很多时间，于是据利机部记想试试看其与Hadoop有什么不一样的地方，就有了这篇Spark的署测试笔单机部署与测试笔记。

一、大数的单硬件环境

操作系统： ubuntu-13.04-desktop-i386

大数据利器：Spark的单机部署与测试笔记正受到广泛的据利机部记关注

JAVA： jdk1.7

大数据利器：Spark的单机部署与测试笔记正受到广泛的据利机部记关注

SSH配置： openssh-server

大数据利器：Spark的单机部署与测试笔记正受到广泛的据利机部记关注

二、据利机部记资源准备

什么是署测试笔Spark?以下为Spark官网的一句话简介：

Apache Spark™ is a fast and general engine for large-scale data processing.

Spark包资源下载地址：点击进入下载页面

我安装的版本是：0.9.1版本，源码包为：spark-0.9.1.tgz

Spark有以下四种运行模式：

local：本地单进程模式，用于本地开发测试Spark代码
standalone：分布式集群模式，Master-Worker架构，署测试笔Master负责调度，大数的单Worker负责具体Task的据利机部记执行
on yarn/mesos：运行在yarn/mesos等资源管理框架之上，yarn/mesos提供资源管理，署测试笔spark提供计算调度，并可与其他计算框架(如MapReduce/MPI/Storm)共同运行在同一个集群之上
on cloud(EC2)：运行在AWS的EC2之上

Spark支持local模式和cluster模式，local不需要安装mesos；如果需要将spark运行在cluster上，需要安装mesos。

三、安装部署

先把Scala和git装好，因为之后的sbt/sbt执行的是使用spark自带的sbt编译/打包。

sudo apt-get update sudo apt-get install scala

我们需要做的其实就两步，解压缩与编译。

$tar -zxvf spark-0.9.1.tgz -C /home/hadoop/software/spark $cd /home/hadoop/software/spark/spark-0.9.1 $sbt/sbt assembly

这一段时间等的会比较长，耐心些。

四、检验测试

Spark有两种运行模式。

4.1 Spark-shell

此模式用于interactive programming，具体使用方法如下(先进入bin文件夹)。

$ ./spark-shell

出现如下信息：

14/05/10 14:18:23 INFO HttpServer: Starting HTTP Server Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 0.9.1 /_/ Using Scala version 2.10.3 (Java HotSpot(TM) Server VM, Java 1.7.0_51) Type in expressions to have them evaluated. Type :help for more information. 14/05/10 14:18:34 INFO Slf4jLogger: Slf4jLogger started 14/05/10 14:18:34 INFO Remoting: Starting remoting 14/05/10 14:18:34 INFO Remoting: Remoting started; …… Created spark context.. Spark context available as sc.

然后输入如下信息：

scala> val days = List("Sunday", "Monday", "Tuesday", "Wednesday", "Thursday", "Friday", "Saturday") days: List[java.lang.String] = List(Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday) scala> val daysRDD = sc.parallelize(days) daysRDD: spark.RDD[java.lang.String] = ParallelCollectionRDD[0] at parallelize at <console>:14 scala> daysRDD.count()

在经过一系列计算后，显示如下信息：