01.22

권혁찬

같은 아파트의 전용면적 별 가격은 같다고 생각하고 엄효범님이 코드를 짜셨는데, 이게 달라지려면 층 의 데이터가 있어야 한다.

feature로 target의 mean, median, std 등을 넣어서 시도

test쪽에만 있는 아파트가 12개정도 있지만, 이들은 거래내역이 없어서 판단 근거가 거의 없다.

drop_duplicates를 하는 이유?

X와 Y는 사용하지 않는다. 도로명으로 충분히 구분할 수 있다 생각해서. 아파트명이 같은데 도로명이 다를 수 있다. 아파트명은 결측치도 있는데 도로명은 없다. → 도로명이 X와 Y보다 더 좋은 feature일 수 있겠다는 생각이 듭니다

결국 Groupby로 어떤 feature들을 묶는지가 중요하다 생각합니다. 아파트명 대신 (도로명, 전용면적)을 묶어서 해 봤다.

해당 아파트의 전용면적 당 가장 일반적인 가격대를 예측하는 것이 좋은 것 같다.

train 쪽에는 없는 데이터가 test에 있어서 전처리를 신경썼다. → 같은 동의 비슷한 전용면적의 target 가격의 mean을 잡는다던지

validation에서 낮은 rmse를 보여도 public score가 높을 수 있다.

김태한

수행했던 내용

엄효범님 코드에서는 면적당 평균 가격을 예측. 주말 동안 면적당 평균 가격이 아닌 개별 가격을 '전용면적(㎡)', 'x좌표','y좌표', '계약년', '계약월’의 피쳐를 활용해서 예측. 모든 년도 데이터를 학습해보고 2020년대 데이터도 학습해봤으나 낮은 성능. 모델은 모두 LGBM with 디폴트 하이퍼 파라미터.

엄효범님 코드 베이스 / 면적, X좌표, Y좌표, 계약년, 계약월, 해당 년의 평균가격, 해당 월의 평균가격, 2020~2023년 데이터 사용 / LGBM 디폴트 하이퍼파라미터 / 로컬 RMSE 21784.6934 / 제출 RMSE: 112001.1583

회의 때 얻은 아이디어

권혁찬님처럼 x, y 좌표가 아닌 도로명 주소를 활용해서 아파트 단지와 아파트 정보를 활용할 예정. 특정 월에 가격이 없는 특성의 아파트들은 학습하기 어렵다. 따라서 어느정도 그룹으로 묶어야 한다.

큰 평수, 학습에 없거나 오래된 년도에 거래된 평수. 신축 아파트는 예측이 어렵다. 같은 동, 비슷한 면적의 mean이나 median을 활용하는 방법.