Data Crawling using CronJob & hdfs | Notion

Keywords

K8s cronjob, hdfs, pyarrow, web crawling

Table of Contents

docker image build

spark를 사용하여 데이터 가공

Concept

하둡 클러스터에 데이터를 적재하기 위한 다양한 방법론 중 k8s의 크론잡을 사용하여, 웹 크롤링을 실행한다.

만개의 레시피에서 레시피, 댓글, 평가 등을 수집하기 위해 코드를 작성하고, 정상적으로 하둡에 저장이 되는지 확인하여야 한다.

hdfs
- 원시 데이터와 가공된 데이터를 저장하기 위한 파일 시스템
pyarrow
- 웹 크롤링의 결과를 hdfs의 네임노드와 연결하여 적재하기 위한 패키지
cronjob
- 크론잡은 잡을 규칙적으로 실행시키기 위한 방식으로 크론탭과 동일한 방식으로 진행된다. hdfs에 접근하고 pyarrow를 사용하기 위해선 다양한 환경설정과 사전 패키지의 설치가 필요하다. k8s 클러스터 or 컨트롤 플레인에서 이 작업을 수행하면, 다른 컴포넌트에 영향을 주는 사이드 이펙트 발생 가능성이 있으므로, 도커 이미지를 빌드하여 크론잡을 사용한다.