1주차 (1.7 ~ 1.12)

김소현 : 복습했음

이현진 : Dacon 대회 code review, 확인해보니 시계열인지, 정형데이터인지 확인할 수 없어, RNN과 LSTM을 복습

권혁찬 : Dart를 찾아보았습니다. Timeseries 데이터를 사용하는 end-to-end 머신러닝 라이브러리.

김태한 : 아직 데이터가 없어서 우선 후보 모델로 XGB, CatB, LGBM, MLP 같은 크로스섹셔널 모델, 시계열 모델인 SARIMA, TabNet, Prophet 정도 생각하고 있습니다. 데이터는 파생변수 만드는거나 결측치처리 등을 강의로 듣고 있어서 참고하려 합니다. 파생변수, 이상치 처리, 결측치 처리. 잘 써먹으면 좋을 것 같다.

문정의 : Dacon 대회 code review, 주소별 좌표 정보 수집, Machine Learning Advanced 강의 수강

강사님 피드백 (240111)

시계열 데이터는 정형데이터와 데이터 사용하는 방법이 조금 달라서 baseline 코드를 만들어보는 것도 도움이 된다.

대회에서 어떤 모델과 방법을 사용했는지 참고해 보는 게 좋다

https://www.kaggle.com/c/zillow-prize-1

tree모델

시계열모델은 보통 auto-correlation을 가정 : 직전 시간대가 현재 시간대에 영향이 있음 → 이걸 체크할 정도의 사이즈를 가진 데이터가 안 주어질 수 있음 → 패턴이 명확해지지 않을 수 있음

EDA를 통해 시계열을 사용하는 게 적절한지 판단해 본다.

양이 많으면 transformer를 사용해 보는 것도…

이 경우 positional encoding이 시계열 모델에 맞게 transform 되어야 함

Q. 혹시 강사님께서 시계열 예측 대회를 하시면서 경험하셨을 때 트리계열 머신러닝 모델과 RNN 계열 딥러닝 모델 둘중 일반적으로 어느쪽이 성능이 더 좋았다라는 것이 있을까요?

시계열과 크로스섹셔널 앙상블은 성능이 별로인 경우가 많다.

Q. 모델링의 난이도가 상당히 높아질 것 같은데 트리계열보다 성능이 안 나오면 대회 때 허탈할 것 같습니다

팀원끼리 모델을 분담해서 실험해 봅시다.