CentOS7 下部署 PySpark 开发环境

一、下载预编译包

1
2
3
4
5
6
7
8
# 下载页面
https://spark.apache.org/downloads.html

# 下载地址
https://dlcdn.apache.org/spark/spark-3.4.1/spark-3.4.1-bin-hadoop3.tgz

# Spark Standalone Mode
https://spark.apache.org/docs/latest/spark-standalone.html

二、配置环境变量

1
2
3
4
5
6
# 在 spark 的 sbin 目录下的 spark-config.sh 中添加JDK的路径

export JAVA_HOME=/usr/local/jdk1.8.0_202

# 避免报错:
# localhost: JAVA_HOME is not set

三、开放端口

1
2
3
4
5
6
firewall-cmd --zone=public --add-port=4040/tcp --permanent
firewall-cmd --zone=public --add-port=8080/tcp --permanent
firewall-cmd --zone=public --add-port=8081/tcp --permanent

# 加载规则
firewall-cmd --reload

四、启动

1
./start-all.sh

五、测试

1
2
# 在 Spark 的 bin 目录下执行:
./run-example SparkPi 10 | grep "Pi is roughly"