What did to
- heatmap으로 feature 상관게수분석 하기
- 데이터의 dendsity 밑 이상치 분석하기
알아낸 것
- feature의 이상치 유무, scale의 분포를 보고, scaler를 선택해서 이상적인 scaler를 찾아야한다.
- one column을 대상으로 Robust와 standard scale을 진행해봤는데, 이상치 값을 잘 없애는 것 처럼 보였다.
- scale을 두번 똑같이 적용해도 같은 scale이 적용된다.
궁금한 것
- feature scale을 자동화는 툴은 왜 없을까
- 개별적인 feature들을 각각의 다른 scaler로 scale을 하면 data가 어떻게 나올까
- 같은 regression 모델을 이용해서 다양한 피쳐 스케일링을 진행했을때, 정확도가 나온 밴치마크가 있을까?
Bouston_house.ipynb
데이터 시각화