<aside> 💡

모델 설계 전략을 기반으로 최적의 모델을 개발하고, 논문에서 제시한 성능(Target)과 비교
Modeling (mandatory)
- Batch 1을 학습 데이터셋으로, Batch 2를 테스트 데이터셋
additional (not mandatory)
- 개발한 최적 모델로 Batch 3 테스트 데이터셋으로 추가 성능 검증
- 단 Batch 3 데이터셋은 배치 간 차이 있어 성능이 떨어질 수 있음
- Batch 3 :
- Cycle Life 분포가 배치 별로 상이 : Batch 1/2는 유사하지만, Batch 3는 분포 차이 있음
- 충전 커브 시작 시점이 배치별로 상이 : Qdlin 변수를 단순 비교하면 왜곡 발생
- 이상치 제거 고려 : 배치 수집 시기 사이에 수개월 공백이 있어, 일부 셀은 데이터 품질 문제로 원논문에서도 제거됨 </aside>

0. EDA 결과

이전 결과

이전 EDA 결과에서 모델링 시에 추가할 변수 3개가 존재했습니다.

log(Var(ΔQ₁₀₀₋₁₀(V)))
방전 용량 감소 기울기 (2~100)
ΔQ(V) 곡선 절대 적분값 (cycle 100 vs 10)

해당 3개의 파생 변수와 통계 데이터를 함께 사용하여 Feature Importance를 확인했습니다.

Features + 파생 변수: Feature Importance 비교

Feature	설명	Permutation Importance
log_dq_variance	DQ 변화의 변동성(열화 불안정성)	55.28
dq_min	최소 DQ(가장 심하게 열화된 상태 반영)	52.07
integral_abs_delta_q	DQ 변화량의 누적합(총 열화량)	32.73
t_avg	평균 온도(열화 속도에 직접 영향)	9.97
mean_qd	방전 용량 평균값(열화 지표들의 기준점)	8.10
slope_2_100	cycle 2~100 사이의 감소 기울기(초기 열화 속도)	0.01
std_qd	방전 용량 변동성(불안정성)	-0.03

std_qd
- Importance의 경우 -0.03으로 중요도가 낮아서 삭제했습니다.
slope_2_100
- slope_2_100의 경우 0.01로 중요도가 매우 낮기에 삭제했습니다.
integral_abs_delta_q
- 원래는 log(var(Qd))를 보완하기 위해 파생변수로 생성했었으나,
- Occam’s Razor - 모델 단순화의 원칙에 의거하여 겹치는 특성을 삭제하였습니다.
- 모델의 단순화와 특성의 단순화를 위해 log_dq_variance와 겹치므로 제거하였습니다.

Hypothesis

많은 특성들을 사용하여 예측을 해야 하므로 가벼운 모델을 사용한다고 생각했습니다.
통계 데이터이므로 1~100 사이의 데이터 값을 통계내야 하므로 약 46개의 데이터가 생깁니다.
1. 데이터가 적으므로 피쳐가 많고 가벼운 모델로 사용하는게 좋다고 생각하였습니다.
2. 왜냐하면 Occam’s Razor에 의하면 다양한 feature들이 존재할 때 복잡하지 않은 방법(모델)을 사용하는 것이 True Solution에 가깝기 때문입니다.
3. 또한, 데이터가 적으므로 Boosting 계열과 Tree 계열의 모델은 제외했습니다.
따라서, 선택한 후보군은 Random Forest, Linear Regression, Ridge Regression, Lasso Regression, 그리고 ElasticNet을 사용하고자 합니다.