在调试的时候,我们可以启动 spark standalone 模式, 来验证代码是否正常
首先启动 spark, 需要注意一下 spark-env.sh 中的 SPARK_WORKER_MEMORY
和 SPARK_DRIVER_MEMORY
$SPARK_HOME/sbin/start-all.sh
然后运行 pyspark, 这里边可以通过修改 spark-env.sh 来指定要使用的 python版本
PYSPARK_PYTHON=/opt/anaconda3/bin/python # 指定 client模式下 执行pyspark 使用的环境
修改 spark-default.conf 来指定配置项, 这里配置的是 单机启动的时候spark 会去默认读取的配置
spark.executor.memory = 4g
spark.driver.memory = 2g
spark.kryoserializer.buffer.max=64m
spark.kryoserializer.buffer=64k