5주차 활동 + 6주차 계획

Untitled

ARIMA

지난 시간에 이상치 전처리한 데이터로 ARIMA 모델 진행

파이썬의 auto_arima를 이용해서 적절한 p, d, q를 찾고 2023-04-04부터 2023-04-25까지의 일별 평균 판매량 값을 예측

일별 평균 판매량 2023-04-05 ~ 2023-04-25 예측한 결과

Untitled

총 제품이 15890개인데, 이 모든 제품을 예측하는데에 시간이 굉장히 오래 걸려서 10개의 제품으로 예측을 진행해봄

Untitled

제품 10개 예측한 결과

Untitled

한계
- 대체로 이전의 경향보다는 최근 경향을 따름
- 시간이 굉장히 오래 걸림

Memory Optimization Techniques

Data Stacking

Dataset
- train.csv
- sales.csv
- brand_keyword_cnt.csv

Untitled

필요한 정보가 여러 데이터셋에 분산되어 나타나 있음.
시간의 흐름이 일반적으로 row에 따라 진행되는 것이 아닌, column에 따라 진행됨.

⇒ 필요한 정보를 하나의 데이터셋에 취합하고 Feature engineering이 수월하도록 각 dataset을 transpose하여 stacking!

Untitled

※ 개당판매금액 = 판매금액 / 판매개수

판매량이 0인 날은 개당판매금액이 존재하지 않음

⇒ 직전 값과 직후 값으로 개당판매금액 결측치를 대체(ffill, bfill)

def fill_missing_values(group):
    return group.fillna(method='ffill').fillna(method='bfill')

cat_df['개당판매금액'] = cat_df.groupby('ID')['개당판매금액'].transform(fill_missing_values)

ex) ID = 1인 상품의 해당 기간 판매 단가 추이

⇒ 하나의 상품 안에서도 해당 기간 동안 단가가 변화함을 알 수 있음.

Untitled

Memory Optimizaion Techniques

1. 표준 할당(Standard Assignment) vs 내부 할당(Inplace Assignment)
1. 필요한 column만 loading
1. 정수 및 실수 데이터 타입 변경
1. 범주형 데이터 타입 변경
1. 결측값이 많은 열의 경우 희소 행렬로 변환
1. 외부 데이터를 로드할 때 최적의 변수 타입 설정

Prophet

-Facebook (현 Meta) 에서 만든 시계열 예측 라이브러리

-날짜 정보와 예측할 y만 있으면 되기에 간편하면서 성능이 좋음.

Untitled

Prophet Forecasting Model

Untitled

g(t) : Growth, 반복적이지 않은 트렌드

s(t) : Seasonality, 주기를 가지고 있는 계절성

h(t) : Holiday, 규칙적이지 않은 영향이 있는 이벤트 (휴일/휴가, 비정기적인 사건과 같은 변화)

장점

-유연성 : 계절성과 여러 기간들에 대한 예측을 쉽게 모델이 적용할수 있음.

-ARIMA모델과 다르게, 모델을 차분해서 정규화 시킬필요도 없고 결측치들을 굳이 넣을 이유 없음.

Prophet으로 2/23~3/28 데이터 보간

날짜 정보와 예측할 y (일별 평균 판매량) ⇒ Prophet이 요구하는 형태

Untitled

Holiday 추가

Untitled

-holiday 패키지를 이용해서 한국의 공휴일 추가

Hyperparameter

-반복문으로 MAPE 구하고 이를 Parameter로 활용함.

Untitled

{'changepoint_prior_scale': 1.0,
 'holidays_prior_scale': 0.01,
 'n_changepoints': 25,
 'seasonality_mode': 'multiplicative',
 'seasonality_prior_scale': 0.6}

changepoint_prior_scale : CP (Change Point : Trend가 변화하는 시점) 추정 민감도로 높을수록 민감

holidays_prior_scale : 휴일 추정 민감도로 높을수록 민감

n_changepoint : CP의 수 (최대치)

seasonailty_mode : 계절성 모델 (additive: 데이터 진폭이 일정, multiplicative :데이터의 진폭이 점점 증가하거나 감소)

seasonality_prior_scale : 계절성 추정 민감도로 높을수록 민감

2/23~3/28 데이터 보간

Untitled