Behavior Sequence Transformer for E-commerce Recommendation in Alibaba

Transformer를 사용한 CTR 예측 논문

Background

Transformer

Attention

모델 구조

입력값에서 User Behavior Sequence를 그대로 입력값으로 넣는다.

Sequence가 아닌 정보들은 바로 MLP Layer로 보낸다.

Untitled

엄밀히 말하자면 Transformer의 Encoder Layer만 활용한 것이다.

Transformer Encoder Layer

Stacking the Self-Attention blocks

BST 비교

vs. DIN

vs. Transformer

모델 성능

Transformer는 CTR Prediction Task에서도 SOTA의 성능을 보인다.

단, Transformer 블록을 2개 이상 쌓을 때 오히려 성능이 감소한다.

이유: CTR 예측 Task의 sequence는 machine translation와 같은 NLP sequence보다는 덜 복잡한 것으로 보인다.

Untitled