DDPM | Notion

참고 : https://www.youtube.com/watch?v=_JQSMhqXw-4

*간단 요약

Diffusion model은 data에 noise를 조금씩 더해가거나 noise로부터 조금씩 복원해가는 과정을 통해 data를 generate하는 모델이다. 이를 한 눈에 표현하면 아래 그림과 같다. 아래 그림에서 $x_0$은 실제 데이터, $x_T$는 최종 noise, 그리고 그 사이의 $x_t$는 데이터에 noise가 더해진 상태의 latent variable을 의미한다.

우선, 위 그림의 오른쪽에서 왼쪽 방향으로 noise를 점점 더해가는 forward process q를 진행한다.

그리고 이 forward process를 반대로 추정하는 reverse process p를 학습함으로써 noise($x_T$)로부터 data( $x_0$)를 복원하는 과정을 학습한다. 그리고 이 reverse process를 활용해서 random noise로부터 우리가 원하는 image, text, graph 등을 generate할 수 있는 모델을 만들어내는 것이다.

(참고 : https://process-mining.tistory.com/182

(latent variable 관련 논문 : https://arxiv.org/abs/1812.06834)

latent variable 간단 예시 :

예시 1 — 제일 순수한 latent variable (동전 예시)

상황

동전을 던지고, 결과만 보여준다고 했을 때,

관측된 것: 앞 또는 뒤
실제 과정:
- z = 동전의 실제 상태 (앞/뒤)
- x = 내가 본 결과

질문

z는 연산에 들어갔나? → YES (연산 = “결과를 결정하는 생성 규칙에 사용된다”)
z를 직접 봤나? → NO (우리가 보는건 x. 관측 = 모델이 받은 데이터에 포함이 되어있는지)