날짜 | 내용 | 발제자 | 결과 |
---|---|---|---|
if 지표 - lb, local필요 | |||
12/25 | 시계열 모델에 디코더를 활용하여 추천을 해낼 수는 없을까? | ||
디코더에서 EOS가 나올 때까지 문장을 생성하는 것처럼, 10개를 딱 끊어서 추천하는 방법은 어떨까? | |||
이것이 기존의 방법과 달라지는 무엇일까? 시계열적인 속성이 많이 들어갈 것 같다. | 김동건 | ||
12/26 | 8강 보다가.. 데이터는 특정 시점을 기준을 잘렸다. 유저별 특정 순서를 기준으로 하는 게 아니다. | ||
날짜 | 내용 | 발제자 | 결과 |
---|---|---|---|
if 지표 - lb, local필요 | |||
year_data 바이닝 | |||
날짜 | 내용 | 발제자 | 결과 |
---|---|---|---|
12/22 | 현재 sequence는 유저가 평가를 남긴 시점 기준으로 정렬되어있는데, 영화가 나온 시점 기준으로 정렬하면 달라질까? | 유상준 | valid score(recall@10)는 최고치가 0.4를 기록할 정도로 좋았으나, 리더보드에서는 0.02정도로 매우 overfitting 되었다고 볼 수 있는 결과를 보여줬다. |
이는 영화 순으로 정렬을 하다보니, 최신 영화에 대해서만 추천을 해줬기 때문에 일어난 일종의 overfitting이 아닐까 생각하고 있다.
혹은 유저가 평점을 남긴 시퀀스 정보가 생각보다 더 유의미함을 알 수 있다. | | 12/29 | 앙상블을 진행할 때 어떻게 하면 좋을까? | 공통 | 다른 조에서는 테스트 데이터가 split된 방식을 이용하여 시퀀스 모델 + 비 시퀀스 모델로 접근했다고 한다. 테스트 데이터는 일부 시점 기준으로 자르고, 랜덤으로 부분 마스킹 처리했기 때문에 이를 반영하기 위해 특정 시점 이후 데이터는 시퀀스 모델을 이용하여 추론하고 랜덤으로 부분 마스킹 처리한 부분은 비 시퀀스 모델을 이용하여 추론하는 아이디어다. 이 때, 각각 케이스에 대한 비율은 동일하다고 언급했다. 언급하지 않았더라도 그렇게 가정 하는 것이 보수적인 것으로 보인다.
그렇다면 가장 좋아보이는 것은 시퀀스 모델에서 5개를 예측하고 비 시퀀스 모델에서 5개를 예측하는 방법인데, 중복이 생길 것을 대비하여 top 10개를 예측한 뒤, 각각의 모델에서 5개씩 예측하고 예를들어 그 중 2개의 중복이 생긴다면 5+5-2 = 8개가 현재 추천완료 되었으니 2개를 각각의 한 개의 모델에서 다음 순위의 예측치(6위부터)를 추가한다. 만약 홀수개의 예측치가 중복이 된다면, 단일 모델 기준 성능이 높은 모델부터 추가하는 방식을 고려한다. | | | | | | | | | | | | | | | |