<aside> 💡
</aside>
AIRFLOW 파이프라인에서 처리되는 데이터는 정형적인 구조를 가지고 있기 때문에,
이를 안정적으로 관리할 수 있는 관계형 데이터베이스(RDS) 에 저장하는 것이 적절하다고 판단했습니다.
또한 프로젝트 내에서 수행하는 뉴스 크롤링 데이터 역시 일정한 스키마를 가진 정형 데이터로,
RDS 기반 관리가 효율적이라고 보았습니다.
그중에서도 MySQL을 사용한 이유는 다음과 같습니다:
① 표준성과 신뢰성
MySQL은 SQL 표준을 충실히 따르는 대표적인 오픈소스 DB로,
SQL 시장에서 오랜 기간 검증된 안정성과 호환성을 갖추고 있습니다.
② 프로젝트 규모에 적합한 선택
RDS에는 상용(유료) 엔진(PostgreSQL, Oracle, SQL Server 등)도 존재하지만,
본 서비스는 복잡한 기능이나 대용량 트랜잭션을 요구하지 않기 때문에,
오픈소스 기반의 MySQL만으로도 충분히 안정적인 운영이 가능하다고 판단했습니다.
③ 비용 및 관리 효율성
AWS RDS의 MySQL 엔진은 자동 백업, 모니터링, 스냅샷 기능을 기본 제공하면서도,
무료 티어에서 시작할 수 있어 비용 대비 효율적인 환경을 제공합니다.
💡 정리:
Airflow 파이프라인과 크롤링 데이터 모두 정형적 특성을 가지며,
검증된 안정성과 표준 호환성을 가진 MySQL이
비용 효율적이면서도 안정적인 RDS 선택지라고 판단했습니다.

Airflow를 운영하기 위해 EC2 인스턴스(Ubuntu 기반 VM) 을 선택했습니다.
EC2는 Airflow Webserver, Scheduler, MySQL, Worker 등을 Docker Compose로 컨테이너화하여 배포할 수 있는 안정적인 환경을 제공합니다.