✔️ Done
-
데이터2018에 대해 PCA 코드 수행
- sex, age, edu, genertn, DE1_pr 변수에 대해 PCA 수행 설명력 49.94% 노인/청년 집단군으로 나눠서 PCA 수행
- 유의미하지 않은 설명력→ 해당 개별 변수 간의 상관관계 적다
-
Kaggle Diabetes Dataset 에 대해서 모델별 Prediction 수행
- Linear Regression, Random Forest, SVM, XGBOOST, CATBOOST 등의 model로 test set /train set 에 대한 훈련/판별
- 수행결과 ACC : 0.78로 catboost 가 1위
- 수행한 데이터에 대해서 pair plot, box plot 등의 시각화
-
연구의 흐름을 가시화 하기 위해 연구 흐름도 제작
-
결측치 처리, 스케일링에 대한 기본 원칙 정립
→ 재고민 필요
🤝 연구주제 발표 미팅(10월 30일)
- 시험기간 포함 근 2주간 연구 내용에 대한 보고
- 우리 데이터 셋에 적합한 Scaling 방법에 대한 자문
- 연구 주제 구체화에 대한 자문
<aside>
💡 N≥30 일때 결측치 날리는 윈칙에 대해서 비추천. 들어있는 값까지 날아가고 데이터 셋이 상대적으로 작기 때문에 여러 경우의 수를 시도해봐야 한다. 모델의 예측치에 대해 결측치 처리의 유효성을 보완하고 평가하기 위한 방법으로 고의로 데이터 셋에 임의적인 결측 값을 넣어 보고 정확도를 비교해보는 방법이 있으니 시도해보길 바람. 또한 PCA 쓰는 근본적인 이유에 대한 답변이 필요함. PCA를 써보고 적용하고 돌린 것 비교해보시길 바람. 정확히 어떤 변수를 넣어서 예측을 수행할 것인지 11월 2주까지는 윤곽을 볼 수 있으면 좋겠다.
</aside>
- Notice! : 다음주 발표는 민경, 세진의 발표 바람
🤔 To Do
- 연구 진행
- 관심 변수를 다시 선정한 후에 Data Scaling 후 다시 모델 코드 수행할 예정
- PCA 추가적인 수행 후, 사용성 자체에 대한 고민 지속
- Data set을 lean하게 가공
8주차 개별연구 보고서.pdf