Keywords

K8s cronjob, hdfs, pyarrow, web crawling

Table of Contents

Concept

Crawling code

docker image build

cronjob.yaml

spark를 사용하여 데이터 가공


Concept


하둡 클러스터에 데이터를 적재하기 위한 다양한 방법론 중 k8s의 크론잡을 사용하여, 웹 크롤링을 실행한다.

만개의 레시피에서 레시피, 댓글, 평가 등을 수집하기 위해 코드를 작성하고, 정상적으로 하둡에 저장이 되는지 확인하여야 한다.