Data 가공
추리고 가공한 실제 데이터에 Prediction model 수행
Linear Regression, Random Forest, SVM, XGBOOST, CATBOOST 등의 model로 test set /train set 에 대한 훈련/판별 0.2~0.5
result : 모델별 각 판별에 대해 지나치게 정확도가 높게 나타났음 99~99.9
cause → 연관 변수 중 당뇨병 의사진단 correlation 이 0.88 인 변수를 제거하지 못함.
sample data set (on kaggle) 에 대해 PCA 적용 전과 적용 후를 판단하여 PCA 방법론 자체의 효용성 판단
→ 실제 데이터에 대해도 수행해 볼 예정(세진)
<aside> 💡 결측치를 처리할 수 있는 라이브러리를 사용해 볼 것, 범주형 변수를 나오는 것을 어떻게 처리할 것인지? 충분한 고민을 해오기를 바람. 또한 설명력이 낮게 나온다는 것은 PCA 방법론을 해당 data set 에서 사용할 필요가 없다는 것을 의미함. 또한 다음주에는 슈도코드 수준의 워크플로우를 볼 수 있었으면 좋겠다. 정확도가 높게 나온 부분에 대해서는 당뇨인 사람의 평균과 표준편차, 당뇨가 아닌 사람의 평균과 표준편차 등 overfitting 의 문제가 있을수도 있다. 따라서 당뇨인데 정상인 범주의 값을 넣어보길 바람.
</aside>