spark之路第一课

1.启动hadoop

到hadoop安装目录的bin下运行如下语句:

./start-all

2.上传文件

同样在bin目录运行,input为hadoop文件系统中的目录,可通过hadoop fs的相关命令查看已经存在的文件:

./hadoop fs -put README.md input

3.启动spark

启动spark的方式有很多,下面是其中一种简单方式,关于其他的一些方式以后会详细介绍。 在spark安装目录的bin目录下,运行:

MASTER=local ./spark-shell

看到如下输出即表示运行成功:

14/09/12 20:05:52 INFO Executor: Using REPL class URI: http://localhost:55267
14/09/12 20:05:52 INFO SparkILoop: Created spark context..
Spark context available as sc.

4.读取hadoop文件

val textFile=sc.textFile("hdfs://127.0.0.1:9000/user/uohzoaix/input/README.txt")
#统计文件行数
textFile.count()
#按空格分隔统计各个词的数量。flatMap,map,reduceByKey均为scala语法
val count=textFile.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(+)
#输出统计结果
count.collect()

sc是SparkContext类,它是spark的入口。关于其更加详细介绍待续。

spark第一课结束。



Previous     Next
uohzoaix /
Published under (CC) BY-NC-SA in categories spark  tagged with