최종보고서 내용기획

✔️ Done

전체 분석 코드에 대한 Sequence 정리
- STEP 1 to 10 - Sequential Strategy Pattern 으로 향후 처리 방법론의 변경이 있을 경우 Step 교체
본 데이터에 대해 RF CLF 로 변수 중요도 추출
- 모델 결과에 따라서 변수를 추릴 때 변수를 쳐내는 용도로 사용
일부 변수에 대해 VIF로 다중공선성 판단, 10 이상 나타나는 변수들에 대해 추림
모델 별로 예측 모델 돌려봄→ 대략적으로 92~95% 정확도를 나타냈음 , But Type 2 error 가 너무 많다.
knn 개선 확인 및 PCA 설명력 개선 확인

🤝 연구주제 발표 미팅(11월 13일)

수행 내용에 대한 자문과 보고
종속변수 select에 대한 자문(he_dm
일정과 연구진행 속도에 대한 조언

<aside> 💡 결측치 처리는 연속형 변수일 경우 knn 비추천, 다시 한 번 고민해 보시길 바람. 또한 PCA 과감히 버리는 것도 나쁘지 않음. 42개 변수 너무 많고, 20~30개 이상의 칼럼이 비어있는 샘플은 그냥 날리는 것도 하나의 방법. 또한 종속 변수를 DE1_pr 보다는 HE_dm (정상, 공복혈당 장애, 당뇨병이 아닌 사람) 으로 설정 해보고 같은 절차를 수행해 보시길 바라고, 변수를 줄여나갔을 때 정확도 개선의 노가다를 수행하는 것도 추천드림.

</aside>

🤔 To Do

데이터 30세 이하, missing col > 20 의 sample 삭제
Col 및 데이터 재 추림
DE1_pr을 종속 변수에서 다른 변수로 교체
연속형/순서형 변수에 대해 처리 방식 재고민(knn not for them)