
"기상 데이터로 응급상황을 예측하다"
2025 날씨 빅데이터 콘테스트 (2025.05.07 ~ 06.27)
개발 기간 2025-06-20 ~ 2025-06-27 (7 일)
주제 119 구급·화재 신고건수 일별 예측(연속값 → RMSE 평가)
최종 LB 1.15 (RMSE, 6 월 25 일 20:37 제출 – 이미지 참고)
개발 환경 Win-11 노트북(i7-12700H / 32 GB RAM)·Python 3.11·scikit-learn 1.4·xgboost 2.0
🎯 Executive Summary
- 문제: 기상청이 119 신고 건수 예측을 통한 응급의료 자원 배치 최적화 필요
- 해결: 날씨 빅데이터와 머신러닝 앙상블을 통한 지역별 119 신고 건수 예측 시스템
- 결과: XGBoost 모델 RMSE 0.5479, Ridge 모델 RMSE 0.7256, 스태킹 앙상블 최적화 완료
- 다음 단계: N/A
⏱ 일정·마일스톤 요약
Day 주요 산출 내부 RMSE ① 6 / 20 Ridge baseline, 전처리 함수화 1.39 ② 6 / 21 주소 merge rule·lag feature 1.30 ③ 6 / 22 XGB (one-hot) 1.27 ④ 6 / 23 RF + 결측 Imputer 1.25 ⑤ 6 / 24 모델별 리더보드 제출 · 스태킹 설계 LB 1.30/1.27 ⑥ 6 / 25 Manual Stacking(RidgeCV) 완성 1.18 → LB 1.15 ⑦ 6 / 27 코드 리팩터링·최종 보고 LB 1.39 (실험)
날씨 데이터 전처리
- 지역난방 열수요와 날씨 빅데이터 통합 분석
- 결측치 보간 및 이상치 처리 시스템
- 시계열 특성 추출(주말, 계절성 등)
머신러닝 앙상블 모델
- Ridge, XGBoost, RandomForest 다중 모델 훈련
- 스태킹 앙상블로 모델 결합 및 성능 향상
- Cross-validation 기반 하이퍼파라미터 최적화
예측 및 제출 시스템
- 지역별 119 신고 건수 예측 생성
- 다양한 모델별 제출 파일 자동 생성
- 2023년 홀드아웃 검증 및 성능 평가