2026/02/26 ~ 2026/03/31
https://github.com/Kairo0628/spark-pipeline
spark.jars.packages옵션을 통해 com.google.cloud.bigdataoss:gcs-connector:hadoop3-2.2.5 등 사용하려는 패키지를 가져왔는데 Spark 자체 jar 파일 버전과 달라 충돌하지 않는 문제가 발생하였다.
spark.driver.userClassPathFirst / spark.executor.userClassPathFirst 를 true로 세팅하여 내려받은 패키지를 우선시하도록 설정하였다.
pyspark의 테스트 유틸인 assertSchemaEqual을 사용하면 pandas, pyarrow 등 다양한 라이브러리를 필요로 한다. 가상 환경에서 구동되는만큼 그 많은 패키지들을 설치할 수 없다. 따라서 기본 assert 방식으로 변경한다.
Spark 클러스터




