요약 : 디퓨전 모델은 “너무 오래” 학습시키지만 않으면, 학습 동역학 자체가 일반화 → 그 다음에야 암기(메모라이제이션)를 하는 방향으로 흘러가기 때문에 큰 모델인데도 잘 안 외워버린다.

→ 실제로 학습된 디퓨전 모델에서 실제 데이터를 뽑아내려는 시도가 있었음 (이건 찾아보긴해야될듯 기억이 잘.. )

<핵심 정리>

문제설정

디퓨전 모델 = 이미지 생성등 여러 생성 작업에서 엄청 잘된다.
디퓨전 모델이 매우 거대한 모델이면 , 훈련 데이터를 통째로 외워도 이상하지 않은데 , 실제로는 꽤 새로운 샘플을 잘만든다
그래서 ? → 어떤 메커니즘 때문에 이렇게 일반화를 잘 할 수 있는가 ?

우리가 보는 관점

훈련시간 (t) 에 따라서 무슨 일이 일어나는가 ?
초반에 모델이 어떻게 일반화 시작하고 / 시간에 따라서 어떻게,언제 메모리아제이션으로 넘어가는지 ?

두개의 중요한 시간스케일 (τ)
τ_gen
- 모델이 “샘플 퀄리티가 높아지는” 시점
  
  (FID 좋아지기 시작, 사람이 봐도 그럴듯한 샘플이 나오는 시점)

(FID 좋아지기 시작, 사람이 봐도 그럴듯한 샘플이 나오는 시점)

τ_mem
- 그 이후부터는 훈련 데이터와 거의 똑같은 샘플(메모라이제이션) 이 나타나기 시작하는 시점

즉,

τ_gen 이전: 아직 샘플이 구리다.
τ_gen ~ τ_mem 사이: 샘플은 좋고, 아직 심한 암기는 아니다 → 일반화 구간.