<aside> 📌 Task : 사전 Q&A 3가지 (발표회 사용 O)
</aside>
만약 과적합 위험이 있었다면 어떤 방식으로 보완하셨는지 듣고 싶습니다.
<aside>
[다니엘님 답변]
저희가 설정한 인기도 점수가 단순한 룰이 아니라, 머신러닝 기준에서도 잘 맞는 기준인지 확인해보고자 검증용으로 모델을 학습시켜 봤습니다.
그 결과, 인기도 점수의 주요 구성 요소인 리뷰, 수익, 방문자 수를 feature로 사용했을 때 약 98%의 정확도가 나와, 이 기준이 내부적으로 일관성 있게 잘 작동함을 확인했습니다.
단, 이는 우리가 만든 기준을 되짚어보는 모델이기 때문에 과도하게 일반화된 의미는 아닙니다.
[띠니 답변]
“모델의 성능을 과하게 믿지 않기 위해, 전체 데이터를 학습용과 검증용으로 70:30으로 나누어 평가했습니다. 학습 정확도는 98.5%였고, 검증 정확도는 97.8%로 차이가 1% 이하였기 때문에 일반적으로 과적합 우려가 낮다고 판단했습니다. 게다가 5-fold 교차검증을 수행했을 때도 평균 정확도가 97.6%±0.5%로 안정적으로 수렴해, 특정 학습 데이터에 과도하게 최적화된 것은 아니라고 결론지었습니다
</aside>
<aside>
텍스트나 평점 리뷰가 따로 없어서 우리가 인기도 기준을 새롭게 설정한 부분에서 이런 질문이 나온 것 같은데 질문하신 분 맞나요?
저희는 악플 / 선플을 알 수 있는 방법이 없어 리뷰 수 자체가 높으면 인기가 많은 것이라고 간주했습니다.
그 이유는 리뷰를 남겼다는 것 자체가 방문을 했다는 의미이고, 만약 부정적인 의견을 남겼다고 한다면 악플도 관심이라는 생각으로 이렇게 방향을 설정했습니다.
전제: 리뷰 수 많으면 관심 & 방문 ⬆️
인기 숙소일수록 평균 리뷰 수 많음
단순 검증임 피피티 읽으세여
</aside>
<aside>
review_year
2011 7
2012 25
2013 48
2014 199
2015 1393
2016 2707
2017 3204
2018 6048
2019 25202
</aside>
(발표회 사용 X)
11페이지 Feature Importance를 구하기 위한 인기/비인기 숙소 머신 러닝 진행 시에 학습 정확도와 테스트 정확도에는 크게 문제가 없었는지 궁금합니다. 만일 두 값 간에 차이가 크셨을 경우 어떤 기준으로 테스트가 합당하다고 판단하여 진행하셨는지 배우고 싶습니다.
도심, 비도심, 외곽 지역으로 비교해주셨는데 구분 기준이 궁금합니다.
3. 도심, 비도심, 외곽 지역으로 비교하게 되면 외곽 지역이 다른 지역의 도심에 가까울 가능성이 있다고 생각했습니다. 그럼 외곽이 아닐 수도 있는데 이 부분은 어떻게 해결하셨나요?
?????????엥???????????? 열받네…?