요약 : 디퓨전 모델은 “너무 오래” 학습시키지만 않으면, 학습 동역학 자체가 일반화 → 그 다음에야 암기(메모라이제이션)를 하는 방향으로 흘러가기 때문에 큰 모델인데도 잘 안 외워버린다.

→ 실제로 학습된 디퓨전 모델에서 실제 데이터를 뽑아내려는 시도가 있었음 (이건 찾아보긴해야될듯 기억이 잘.. )

<핵심 정리>

  1. 문제설정
  1. 우리가 보는 관점
  1. 두개의 중요한 시간스케일 (τ)

    image.png

  2. τ_gen

  1. τ_mem

즉,