결측치 스케일링

KCI_FI000931957.pdf
1️⃣제거하기 (Deletion) → 선택하지 않음
- 목록 삭제 : 결측치가 존재하는 전체 행을 삭제
- 단일 값 삭제 : 손실된 관측치 자체만 삭제하고, 다른 변수가 존재하는 경우에는 그대로 유지
2️⃣채우기 (Imputation) → 선택
- ✔️ 평균화 기법 : 평균, 중앙값, 최빈값 등을 이용하여 결측치를 유추하는 방법
- 예측 기법 : 회귀 분석 기술을 활용하거나 SVM과 같은 기계 학습 방법으로 결측치를 채우는 방법
관측된 자료를 토대로 결측값을 대치함으로써 통계량의 표준오차가 과소 추정되는 문제가 있지만 사용하기 간단하고 효율성이 높은 평균화 기법을 사용하기로 결정!
결측치 스케일링 결과 → 일반특성 변수, 질병관련 변수까지 진행

PCA 적용 전 / 적용 후 + 예측 모델 정확도 비교
Kaggle diabetes.csv 활용
- Logistic Regression
- Random Forest