<aside> 📌 Task : 전처리 필요 부분
유진 인영영은 시현다니엘유진유진
</aside><aside> 📌 실행 및 진행 사항 정리
<aside> 📌
결측치 처리
1️⃣ name(16) 숙소 이름 유진 시현
: room_type: neighbourhood로 대체
# name이 결측값(NaN)인 행에 대해
df.loc[df['name'].isnull(), 'name'] = (
df['room_type'] + ' : ' + df['neighbourhood']
)
# nan값 사라졌는지 확인
df['name'].isna().sum()
# 특정 행에 데이터 제대로 들어갔는지 확인
df.loc[df['id'] == 1615764]
2️⃣ host_name(21) 호스트 이름 영은
: fillna 사용 host로 대체
df['host_name'].isnull().sum()
df['host_name'] = df['host_name'].fillna('host')
3️⃣ last_review(10052) 다니엘
: NaN 값 그대로 두기로! or 9999-99-99( 말이 안되는 값)넣기
사용에 따라 날리기도 함. (복합분석 or 세부분석에 따라 달라질 수 있음.)
4️⃣ reviews_per_month(10052) 인영
: 0으로 대체
df['reviews_per_month'].isnull().sum()
df['reviews_per_month'] = df['reviews_per_month'].fillna(0)
</aside>