在调试的时候,我们可以启动 spark standalone 模式, 来验证代码是否正常

首先启动 spark, 需要注意一下 spark-env.sh 中的 SPARK_WORKER_MEMORYSPARK_DRIVER_MEMORY

$SPARK_HOME/sbin/start-all.sh

然后运行 pyspark, 这里边可以通过修改 spark-env.sh 来指定要使用的 python版本

PYSPARK_PYTHON=/opt/anaconda3/bin/python # 指定 client模式下 执行pyspark 使用的环境

修改 spark-default.conf 来指定配置项, 这里配置的是 单机启动的时候spark 会去默认读取的配置

spark.executor.memory = 4g
spark.driver.memory = 2g
spark.kryoserializer.buffer.max=64m 
spark.kryoserializer.buffer=64k