<aside> 💡

0. EDA 결과

이전 결과

이전 EDA 결과에서 모델링 시에 추가할 변수 3개가 존재했습니다.

  1. log(Var(ΔQ₁₀₀₋₁₀(V)))
  2. 방전 용량 감소 기울기 (2~100)
  3. ΔQ(V) 곡선 절대 적분값 (cycle 100 vs 10)

해당 3개의 파생 변수와 통계 데이터를 함께 사용하여 Feature Importance를 확인했습니다.

Features + 파생 변수: Feature Importance 비교

Feature 설명 Permutation Importance
log_dq_variance DQ 변화의 변동성(열화 불안정성) 55.28
dq_min 최소 DQ(가장 심하게 열화된 상태 반영) 52.07
integral_abs_delta_q DQ 변화량의 누적합(총 열화량) 32.73
t_avg 평균 온도(열화 속도에 직접 영향) 9.97
mean_qd 방전 용량 평균값(열화 지표들의 기준점) 8.10
slope_2_100 cycle 2~100 사이의 감소 기울기(초기 열화 속도) 0.01
std_qd 방전 용량 변동성(불안정성) -0.03

image.png

Hypothesis

  1. 많은 특성들을 사용하여 예측을 해야 하므로 가벼운 모델을 사용한다고 생각했습니다.
  2. 통계 데이터이므로 1~100 사이의 데이터 값을 통계내야 하므로 약 46개의 데이터가 생깁니다.
    1. 데이터가 적으므로 피쳐가 많고 가벼운 모델로 사용하는게 좋다고 생각하였습니다.
    2. 왜냐하면 Occam’s Razor에 의하면 다양한 feature들이 존재할 때 복잡하지 않은 방법(모델)을 사용하는 것이 True Solution에 가깝기 때문입니다.
    3. 또한, 데이터가 적으므로 Boosting 계열과 Tree 계열의 모델은 제외했습니다.
  3. 따라서, 선택한 후보군은 Random Forest, Linear Regression, Ridge Regression, Lasso Regression, 그리고 ElasticNet을 사용하고자 합니다.