객체를 잠재적 요인으로 표현한 모델
객체에 대한 행렬을 저차원의 행렬로 분해하는 방식으로 작동한다.
Sparse representation → Dense representation
특정 객체에 대한 정보(고차원 벡터)를 변환할 수 있는 (비교적)저차원의 공간
임베딩을 활용하여 큰 입력에 대해 더 쉽게 머신 러닝을 수행할 수 있다.
임베딩을 한 번 학습하면 여러 모델에서 재사용이 가능하다.
비슷한 객체 입력들을 임베딩 공간에 서로 가깝게 배치하고, 객체의 의미 집합을 기록해둔다.
각 차원의 의미는 모델 학습을 통해 생성되며 표면적으로는 알 수 없다.
보통 수백 차원 이상을 사용한다.
특징
범주형(categorical) feature를 특정 길이의 벡터로 임베딩하는 것
트랜스포머(Transformer)에서 단어 혹은 카테고리(category)들을 임베딩(embedding) 할 때 자주 사용된다.
신경망을 통해 훈련시켜야 하며 훈련된 임베딩 행렬을 활용하여 임베딩된 새로운 feature를 만들어낼 수 있다.
One-hot code의 단점을 개선한 방법
자연어를 벡터로 변환시킨 결과나 그 과정
단어의 의미를 저차원 공간의 벡터로 표현하는 기법
비슷한 의미 집합을 가지면 공간 상의 비슷한 위치에 분포한다.