<aside> 📌 Task : 데이터 전처리 Airbnb Open Data Dictionary.xlsx - Google Sheets
</aside>
⭐주제: airbnb 숙소 데이터를 기반으로 가격 예측 모델 개발 및 주요 요인 분석
→ 데이터 기반으로 가격 결정 요인 분석,
→숙소 운영 및 정책 수립에 실질적인 인사이트 제공(에어비앤비 호스트가 가격 결정에 중요한 요소를 파악하고 적절한 가격 설정과 전략을 세울 수 있게 분석해주세요)
그 외에 생각하는 점들: 컬럼이 너무 많으니 밑의 컬럼들을 대체할 수 있을만한(아우를 수 있을만한 컬럼이 있는지 찾아보아야 할 듯,,
| reviews_per_month |
|---|
| review_scores_accuracy |
| review_scores_cleanliness |
| review_scores_rating |
<aside> 📌 실행 및 진행 사항 정리
</aside>
필요없는 데이터는 drop을 사용해서 삭제함. 결측치가 많지만 제외하지 않은 컬럼 중에서 neighborhood_overview 는 전체 비율에서 45%의 결측값을 가지고 있음.
# df1 = df.copy()
df1 = df1.drop(
['calendar_updated','license','neighbourhood',
'host_about','first_review','host_location'],
axis=1,errors='ignore')
df1
#현재 컬럼 총 67개..
→머신러닝에서 현재 회귀 관련해서 다시 복습해야 할 듯.