Data Crawling using CronJob & hdfs (2)

Keywords

K8s cronjob, hdfs, pyarrow, web crawling, spark

Table of Contents

Concept

Pre-process

Data Crawling using CronJob & hdfs

Concept

하둡 클러스터에 저장된 레시피 id를 바탕으로 레시피 정보, 레시피 댓글 등의 추가적인 정보를 수집한다. 이전 방식과 동일한 방법으로 진행되며, CronJob을 사용한다.

이전 작업에서 Cronjob, pyarrow를 위한 도커 이미지 빌드 등의 환경설정을 마쳤으므로 이번 작업에서는 크롤링 코드만 수정하여 깃허브에 배포한다.