Keywords

pyspark, spark dataframe, hdfs

Table of Contents

Concept

스키마 정의 & 데이터 가공 코드

에러

Pre-process

Data Crawling using CronJob & hdfs

Data Crawling using CronJob & hdfs (2)


Concept


하둡 클러스터에 저장된 레시피 데이터를 가져와 스파크로 가공한다. pyarrow나 RDBMS 사용 등 다양한 방법이 있지만, spark dataframe을 사용하여 스키마를 정의하고 데이터를 저장한다.

기존에 크롤링한 데이터가 요구사항에 맞는 형태로 가공하지 않은 채 json 파일로 저장되었으므로 파일을 하나씩 불러와 각각의 row를 추출하여 가공하고 이를 스키마에 맞게 변환하여 저장한다.

Untitled

Untitled

Untitled