1주차 | Notion

1주차에서는 Stable Diffusion(스테이블 디퓨전)을 이해하기 위한 이론적 기초를 다지는데 집중합니다. 가능한 한 상세하게, 그리고 핵심 용어는 항상 한국어(영어) 병기하여 설명드리겠습니다.

1. 확산 모델(diffusion model)의 개요

확산 모델(diffusion model) 이란 무엇인가
- 본래 물리학(physics)에서의 확산(diffusion) 개념을 차용하여,
  
  데이터에 점진적으로 노이즈(noise)를 추가하여 분포를 파악하고,
  
  다시 그 노이즈를 제거(reverse diffusion)하는 확률적 과정(probabilistic process) 기반의 생성 모델(generative model)입니다.
- 전통적인 생성 모델인 GAN(Generative Adversarial Network, 적대적 생성 신경망)이나 VAE(Variational Autoencoder, 변분 오토인코더)와는 달리,
  
  직접 확률 분포를 점진적으로 학습한다는 점에서 차별화됩니다.
핵심 아이디어
1. 정방향 과정(forward process): 실제 데이터 샘플에 점진적으로 가우시안 노이즈(Gaussian noise)를 추가하여 완전한 노이즈(noise-only)로 변환합니다.
2. 역방향 과정(reverse process): 노이즈를 한 스텝씩 제거하면서 원본 데이터 분포를 복원하도록 학습합니다.
3. 이 때, 노이즈 추가·제거 과정은 마르코프 연쇄(Markov chain) 형태로 확률 분포를 모델링합니다.

Stable Diffusion 은 DDPM을 잠재 공간(latent space) 상에서 동작하도록 설계한 모델입니다.
- 이미지 차원(image space)이 아닌, VAE(Variational Autoencoder, 변분 오토인코더)로 인코딩된 낮은 차원의 잠재 벡터(latent vector) 상에서 노이즈 처리하므로,
  
  계산 비용(computational cost)과 메모리 소비(memory footprint)를 크게 줄였습니다.
주요 구성 요소
1. 잠재 인코더(latent encoder) – 이미지를 잠재 공간으로 투영(projection)
2. U-Net(unet) 기반 디퓨전 네트워크 – 노이즈를 제거하며 잠재 벡터를 생성
3. 텍스트 인코더(text encoder) – CLIP(Contrastive Language–Image Pre-training) 기반의 텍스트 임베딩(text embedding)
4. 잠재 디코더(latent decoder) – 잠재 벡터를 다시 이미지로 복원

DDPM 튜토리얼 따라 하기
- Google Colab에서 pytorch-ddpm 예제 레포(repo)를 클론(clone)하여, 노이즈 추가·제거 과정을 시각화하세요.
- 각 스텝(timestep)별 이미지 변화를 matplotlib(매트플롯리브)로 플로팅(plotting)합니다.
핵심 수식 재현
- 앞서 언급한 q(xt∣xt−1)q(\mathbf{x}t|\mathbf{x}{t-1}) 와 pθ(xt−1∣xt)p_\theta(\mathbf{x}_{t-1}|\mathbf{x}_t) 수식을 코드로 구현해 보세요.
- 임의의 작은 이미지 패치(patch)에 대해 노이즈 샘플(noise sample)을 생성하고, 역확산(reverse diffusion)으로 복원해 봅니다.
논문 요약 보고서 작성
- “Denoising Diffusion Probabilistic Models” 논문의 동기(motivation), 방법(method), 실험(experiment) 결과를 A4 1~2장 분량으로 정리하세요.
- 포맷: 한글(영문 키워드 병기), 목차 포함