1.启动hadoop
到hadoop安装目录的bin下运行如下语句:
2.上传文件
同样在bin目录运行,input为hadoop文件系统中的目录,可通过hadoop fs的相关命令查看已经存在的文件:
3.启动spark
启动spark的方式有很多,下面是其中一种简单方式,关于其他的一些方式以后会详细介绍。
在spark安装目录的bin目录下,运行:
看到如下输出即表示运行成功:
4.读取hadoop文件
sc是SparkContext类,它是spark的入口。关于其更加详细介绍待续。
spark第一课结束。