머신러닝 프로젝트는 일반적으로 아래와 같은 단계를 거칩니다.
저희는 이번에 1번 ~ 4번 흔히 말하는 전처리에 대해 배워 볼 것입니다.
이번 장에서는 StatLib 저장소에 있는 캘리포니아 주택 가격 데이터셋을 사용할 예정입니다.
( 교육목적으로 많이 사용되는 데이터셋이며, 코드 보다는 전반적인 이해를 바탕으로 진행할 것이기에 후에 코드와 실제 작동과정에서 대해서 알고 싶으신 분은 나중에 나누어드릴 교재 “ 핸즈온 머신러닝 “ 을 참고해 주시기 바랍니다. )