<aside>
💡
- 모델 설계 전략을 기반으로 최적의 모델을 개발하고, 논문에서 제시한 성능(Target)과 비교
- Modeling (mandatory)
- Batch 1을 학습 데이터셋으로, Batch 2를 테스트 데이터셋
- additional (not mandatory)
- 개발한 최적 모델로 Batch 3 테스트 데이터셋으로 추가 성능 검증
- 단 Batch 3 데이터셋은 배치 간 차이 있어 성능이 떨어질 수 있음
- Batch 3 :
- Cycle Life 분포가 배치 별로 상이 : Batch 1/2는 유사하지만, Batch 3는 분포 차이 있음
- 충전 커브 시작 시점이 배치별로 상이 :
Qdlin 변수를 단순 비교하면 왜곡 발생
- 이상치 제거 고려 : 배치 수집 시기 사이에 수개월 공백이 있어, 일부 셀은 데이터 품질 문제로 원논문에서도 제거됨
</aside>
0. EDA 결과
이전 결과
이전 EDA 결과에서 모델링 시에 추가할 변수 3개가 존재했습니다.
- log(Var(ΔQ₁₀₀₋₁₀(V)))
- 방전 용량 감소 기울기 (2~100)
- ΔQ(V) 곡선 절대 적분값 (cycle 100 vs 10)
해당 3개의 파생 변수와 통계 데이터를 함께 사용하여 Feature Importance를 확인했습니다.
Features + 파생 변수: Feature Importance 비교
| Feature |
설명 |
Permutation Importance |
| log_dq_variance |
DQ 변화의 변동성(열화 불안정성) |
55.28 |
| dq_min |
최소 DQ(가장 심하게 열화된 상태 반영) |
52.07 |
| integral_abs_delta_q |
DQ 변화량의 누적합(총 열화량) |
32.73 |
| t_avg |
평균 온도(열화 속도에 직접 영향) |
9.97 |
| mean_qd |
방전 용량 평균값(열화 지표들의 기준점) |
8.10 |
| slope_2_100 |
cycle 2~100 사이의 감소 기울기(초기 열화 속도) |
0.01 |
| std_qd |
방전 용량 변동성(불안정성) |
-0.03 |

- std_qd
- Importance의 경우 -0.03으로 중요도가 낮아서 삭제했습니다.
- slope_2_100
- slope_2_100의 경우 0.01로 중요도가 매우 낮기에 삭제했습니다.
- integral_abs_delta_q
- 원래는 log(var(Qd))를 보완하기 위해 파생변수로 생성했었으나,
- Occam’s Razor - 모델 단순화의 원칙에 의거하여 겹치는 특성을 삭제하였습니다.
- 모델의 단순화와 특성의 단순화를 위해 log_dq_variance와 겹치므로 제거하였습니다.
Hypothesis
- 많은 특성들을 사용하여 예측을 해야 하므로 가벼운 모델을 사용한다고 생각했습니다.
- 통계 데이터이므로 1~100 사이의 데이터 값을 통계내야 하므로 약 46개의 데이터가 생깁니다.
- 데이터가 적으므로 피쳐가 많고 가벼운 모델로 사용하는게 좋다고 생각하였습니다.
- 왜냐하면 Occam’s Razor에 의하면 다양한 feature들이 존재할 때 복잡하지 않은 방법(모델)을 사용하는 것이 True Solution에 가깝기 때문입니다.
- 또한, 데이터가 적으므로 Boosting 계열과 Tree 계열의 모델은 제외했습니다.
- 따라서, 선택한 후보군은 Random Forest, Linear Regression, Ridge Regression, Lasso Regression, 그리고 ElasticNet을 사용하고자 합니다.