spark之路第一课

1.启动hadoop

到hadoop安装目录的bin下运行如下语句：

./start-all

2.上传文件

同样在bin目录运行，input为hadoop文件系统中的目录，可通过hadoop fs的相关命令查看已经存在的文件：

./hadoop fs -put README.md input

3.启动spark

启动spark的方式有很多，下面是其中一种简单方式，关于其他的一些方式以后会详细介绍。在spark安装目录的bin目录下，运行：

MASTER=local ./spark-shell

看到如下输出即表示运行成功：

14/09/12 20:05:52 INFO Executor: Using REPL class URI: http://localhost:55267
14/09/12 20:05:52 INFO SparkILoop: Created spark context..
Spark context available as sc.

4.读取hadoop文件

val textFile=sc.textFile("hdfs://127.0.0.1:9000/user/uohzoaix/input/README.txt")
#统计文件行数
textFile.count()
#按空格分隔统计各个词的数量。flatMap,map,reduceByKey均为scala语法
val count=textFile.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(+)
#输出统计结果
count.collect()

sc是SparkContext类，它是spark的入口。关于其更加详细介绍待续。

spark第一课结束。

Previous Next

uohzoaix / 2014-09-12
Published under (CC) BY-NC-SA in categories spark tagged with