进入镜像源配置aliyun镜像。
修改主機名修改ip映射;
如果xshel 客户端|出现以下情况 ?
Reboot 可解决这个情况!!!!
创建应用apps目录:
Java的安装和环境配置:
Hadoop伪分布式搭建:
-
hadoop伪分布式文件配置
创建hdfs的用户目录:
####有了上面的配置信息以后Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据如果没有配置上面信息,Spark就只能读写本地数据无法读写HDFS数据。####有了上面的配置信息以后Spark就可以把数据存储到Hadoop分布式文件系统HDFS中,也可以从HDFS中读取数据如果沒有配置上面信息,Spark就只能读写本地数据无法读写HDFS数据。
修改服务机器单机部署,所以名字改成自己的;
运行检测spark是否启动;
pwd #查看当湔路径
接着在“Environment variables”一栏点击右边按钮进行环境变量配置
点击OK,完成环境配置
第三步:导入相关的库(pyspark模块)
进入spark安装目录下的python中导入兩个压缩包
创建wordcount.py程序文件输入以下代码:
[注]:如果pycharm运行遇到这个问题: