Keywords

K8s cronjob, hdfs, pyarrow, web crawling, spark

Table of Contents

Concept

Crawling code

데이터 수집 결과

Pre-process

Data Crawling using CronJob & hdfs


Concept


하둡 클러스터에 저장된 레시피 id를 바탕으로 레시피 정보, 레시피 댓글 등의 추가적인 정보를 수집한다. 이전 방식과 동일한 방법으로 진행되며, CronJob을 사용한다.

이전 작업에서 Cronjob, pyarrow를 위한 도커 이미지 빌드 등의 환경설정을 마쳤으므로 이번 작업에서는 크롤링 코드만 수정하여 깃허브에 배포한다.

Crawling code


레시피 크롤링