DBE - Dynamic Bernoulli Embeddings for Language Evolution

<aside> 💡 사회현상 분석 프로젝트를 위해 공부했던 DBE(Dynamic Bernouli Embedding) 에 대해 정리하고자 한다. 이번 포스팅은 DBE으로 불리는 'Dynamic Bernoulli Embedding for Language Evolution' 논문의 내용을 바탕으로 참고 자료와 함께 다시 정리한 내용이다.

</aside>

1. Introduction

Word Embedding은 언어의 잠재 의미 구조를 포착하는 비지도학습 방법
EFE(Exponential family embeddings)은 분산된 표현을 확률적 모델의 latent variables 로 나타냄 (e.g. Exponential family : Normal distribution, Bernoulli distribution, etc.)
본 논문에는 exponential family embedding 방식을 차용한 dynamic embedding을 제안
이는 시간 변화에 따른 잠재표현을 학습하는 방법으로 각 시점 간 개별 단어의 의미가 얼마나 변하는지 나타냄

2. Dynamic Embeddings

EFE 계열은 데이터의 시계열 의미변화를 찾는 방법론
본 논문은 EFE 계열 중 Bernoulli embedding model를 사용

Untitled

                        [ figure 1 ] Dynamic Bernoulli Embeddings model architecture

2.1 Bernoulli embeddings for text

EFE는 Conditionally specified model로 context, conditional distribution of each data point, parameter sharing structure로 구성
text에서의 EFE 입력 데이터는 ‘indicator vector(One-Hot Vector)’ $x_{iv}\in \{0,1\}^V$로 구성된 corpus
EFE에서 각 data point는 context를 가지는데, text에선 각 단어에 이웃된 단어를 뜻함
이를 통해 단어의 전/후에 대한 상태로 구조화 가능

→ EFE를 통해서 이웃 단어와 sequence를 정의함

$$ x_{iv}|X_{ci} \sim Bern(p_{iv})\;where\;p_{iv}\in(0,1) : Bernoulli\,probability $$

$c_i$를 position $i$의 이웃 postion set으로, $X_{ci}$ 를 이러한 positons에 의해 Indexed된 data point로 정의