공공 API의 데이터를 통해 데이터 브릭스의 핵심 아키텍쳐인 메달리온 아키텍처(Medallion Architecture)를 구성한다.
로우 데이터(Bronze Layer)부터 전처리(Silver Layer), 비즈니스 데이터(Gold Layer)를 데이터 브릭스 환경에서 직접 구성하며 파이프라인을 구축 및 운영, 대시보드 구성까지 end-to-end로 경험해보는 demo 프로젝트이다.
공공 데이터 포털의 REST API를 통해 데이터를 수집한다. 활용신청 페이지와 참고문서를 통하여 해당 API의 특성을 확인한다.
수집 된 데이터를 확인하며 필요한 전처리(결측치 처리, 타입 변환, datetime 타입 timezone 확인, 누락된 row 확인 등)를 수행한다.
전처리를 마친 데이터를 통해 실제 서비스에 즉시 사용 가능한 형태의 테이블을 만들기 위해 필요한 작업(조인, 필요없는 열 제거 등)
BI 도구(Power BI, Tableau 등)에 비즈니스 데이터를 가져와 KPI에 적합한 대시보드를 구성한다. (해당 과정에서는 Databricks 내부 BI 기능 활용)
앞선 모든 과정을 파이프라인으로 패키징하여 전체 과정을 자동화한다. 이 떄 기존 코드에서 수정이 필요(Task 매개변수 설정 및 테이블 증분 처리 등)