전처리 - 황효정

<aside> 📌 Task : 데이터 전처리 Airbnb Open Data Dictionary.xlsx - Google Sheets

</aside>

⭐주제: airbnb 숙소 데이터를 기반으로 가격 예측 모델 개발 및 주요 요인 분석

→ 데이터 기반으로 가격 결정 요인 분석,

→숙소 운영 및 정책 수립에 실질적인 인사이트 제공(에어비앤비 호스트가 가격 결정에 중요한 요소를 파악하고 적절한 가격 설정과 전략을 세울 수 있게 분석해주세요)

4.24

4.25

데이터 살펴보기
null값을 기준으로 정렬
필요없는 데이터 선정 및 선정이유
결측값이 있지만 필요있다고 선정 한 이유,,(근데 회기 모델에서 결측값 사용이 어렵다면 그냥 드롭)
중요하다고 생각하는 컬럼들

그 외에 생각하는 점들: 컬럼이 너무 많으니 밑의 컬럼들을 대체할 수 있을만한(아우를 수 있을만한 컬럼이 있는지 찾아보아야 할 듯,,

reviews_per_month
review_scores_accuracy
review_scores_cleanliness
review_scores_rating

<aside> 📌 실행 및 진행 사항 정리

</aside>

필요없는 데이터는 drop을 사용해서 삭제함. 결측치가 많지만 제외하지 않은 컬럼 중에서 neighborhood_overview 는 전체 비율에서 45%의 결측값을 가지고 있음.

# df1 = df.copy()

df1 = df1.drop(
['calendar_updated','license','neighbourhood',
'host_about','first_review','host_location'],
axis=1,errors='ignore')
df1

#현재 컬럼 총 67개..

→~~머신러닝에서 현재 회귀 관련해서 다시 복습해야 할 듯.~~

수치형 데이터 상관관계 분석
범주형 데이터 상관관계 분석