Latent Factor Model(Embedding)

객체를 잠재적 요인으로 표현한 모델

객체에 대한 행렬을 저차원의 행렬로 분해하는 방식으로 작동한다.

Sparse representation → Dense representation

특정 객체에 대한 정보(고차원 벡터)를 변환할 수 있는 (비교적)저차원의 공간

임베딩을 활용하여 큰 입력에 대해 더 쉽게 머신 러닝을 수행할 수 있다.

임베딩을 한 번 학습하면 여러 모델에서 재사용이 가능하다.

비슷한 객체 입력들을 임베딩 공간에 서로 가깝게 배치하고, 객체의 의미 집합을 기록해둔다.

각 차원의 의미는 모델 학습을 통해 생성되며 표면적으로는 알 수 없다.

보통 수백 차원 이상을 사용한다.

특징

범주형(categorical) feature를 특정 길이의 벡터로 임베딩하는 것

트랜스포머(Transformer)에서 단어 혹은 카테고리(category)들을 임베딩(embedding) 할 때 자주 사용된다.

신경망을 통해 훈련시켜야 하며 훈련된 임베딩 행렬을 활용하여 임베딩된 새로운 feature를 만들어낼 수 있다.

One-hot code의 단점을 개선한 방법

자연어를 벡터로 변환시킨 결과나 그 과정

단어의 의미를 저차원 공간의 벡터로 표현하는 기법

비슷한 의미 집합을 가지면 공간 상의 비슷한 위치에 분포한다.