✔️ Done
-
통계 관련 개념 학습 스터디 : 공유 지식의 범위가 달랐음.
- 변수에 대한 학습 (Scaling은 왜 하고, 어떤 기준으로 하고, 어떻게 할까에 대한 고민)
- 다중공선성 제거, 가설 검정, t-test, p-value, 결측값 처리, kaggle, ...
-
HC / PCA 예제코드 실행
- HC : (python예제 데이터(grocery.csv) 를 통한 클러스터링과 덴드로그램 plotting
- PCA : HE_ht/HE_wt/HE_wc/HE_obe 등의 변수의 높은 상관성을 볼 수 있었음.
-
관심 변수, 데이터 리스트에 대한 정리
-
연관 데이터 셋 서치 :
→ 노인 질병 Top 5 리스팅을 할 수 있었으며, 이외에는 관련한 인사이트를 얻기 어려웠음.
-
발표 진행 : 발표자 김동호 / PPT 제작 세진
🤝 연구주제 발표 미팅(10월 8일)
- 2주간 수행 연구 내용에 대한 보고
- 우리 데이터 셋에 적합한 Scaling 방법에 대한 자문
- 연구 주제 구체화에 대한 자문
<aside>
💡 노인의 Top 5 만성질환으로 하면 우리 dataset에서는 아픈 노인의 대략적 특성이 비슷하기 때문에 결과가 명확하게 나오지 않을 것이다. 따라서 두루뭉술한 결과를 만들어내지 않기 위해서는 노인, 청년 나이대를 비교하는 것을 권한다. 변수 스케일링은 주관적이 될 수 밖에 없고 여러가지 방식을 적용해보고 결과를 비교해보는 것을 권한다. 우리 dataset에서 나타나는 결측값 또한 어떻게 채울 것인지 고민해야한다.
</aside>
- Notice! : 15일,22일 조교와의 미팅 없음. → 한글 양식의 중간 보고서로 진행사항을 정리해서 제출할 것. / (잠정) 교수님과의 미팅
🤔 To Do
- 연구 진행
- Kaggle 다른 문제들 수행면서 우리 연구에 적용시킬 인사이트 얻을 것
- 청년 노인 유병률 다르게 나타나는 질병을 선정하고 변수간 상관관계 날릴 예정
- 스케일링에 대한 고민 추가적으로...