<aside>
💡 사회현상 분석 프로젝트를 위해 공부했던 DBE(Dynamic Bernouli Embedding) 에 대해 정리하고자 한다. 이번 포스팅은 DBE으로 불리는 'Dynamic Bernoulli Embedding for Language Evolution' 논문의 내용을 바탕으로 참고 자료와 함께 다시 정리한 내용이다.
</aside>
1. Introduction
- Word Embedding은 언어의 잠재 의미 구조를 포착하는 비지도학습 방법
- EFE(Exponential family embeddings)은 분산된 표현을 확률적 모델의 latent variables 로 나타냄
(e.g. Exponential family : Normal distribution, Bernoulli distribution, etc.)
- 본 논문에는 exponential family embedding 방식을 차용한 dynamic embedding을 제안
- 이는 시간 변화에 따른 잠재표현을 학습하는 방법으로 각 시점 간 개별 단어의 의미가 얼마나 변하는지 나타냄
2. Dynamic Embeddings
- EFE 계열은 데이터의 시계열 의미변화를 찾는 방법론
- 본 논문은 EFE 계열 중 Bernoulli embedding model를 사용

[ figure 1 ] Dynamic Bernoulli Embeddings model architecture
2.1 Bernoulli embeddings for text
- EFE는 Conditionally specified model로 context, conditional distribution of each data point, parameter sharing structure로 구성
- text에서의 EFE 입력 데이터는 ‘indicator vector(One-Hot Vector)’ $x_{iv}\in \{0,1\}^V$로 구성된 corpus
- EFE에서 각 data point는 context를 가지는데, text에선 각 단어에 이웃된 단어를 뜻함
- 이를 통해 단어의 전/후에 대한 상태로 구조화 가능
→ EFE를 통해서 이웃 단어와 sequence를 정의함
$$
x_{iv}|X_{ci} \sim Bern(p_{iv})\;where\;p_{iv}\in(0,1) : Bernoulli\,probability
$$
- $c_i$를 position $i$의 이웃 postion set으로, $X_{ci}$ 를 이러한 positons에 의해 Indexed된 data point로 정의