Keywords
pyspark, spark dataframe, hdfs
Table of Contents
Pre-process
Data Crawling using CronJob & hdfs
Data Crawling using CronJob & hdfs (2)
하둡 클러스터에 저장된 레시피 데이터를 가져와 스파크로 가공한다. pyarrow나 RDBMS 사용 등 다양한 방법이 있지만, spark dataframe을 사용하여 스키마를 정의하고 데이터를 저장한다.
기존에 크롤링한 데이터가 요구사항에 맞는 형태로 가공하지 않은 채 json 파일로 저장되었으므로 파일을 하나씩 불러와 각각의 row를 추출하여 가공하고 이를 스키마에 맞게 변환하여 저장한다.


