Diffusion模型

1. Diffusion文字生成图片——整体结构

我们知道在使用 Diffusion 的时候，是通过文字生成图片，但是上一篇文章中讲的Diffusion模型输入只有随机高斯噪声和time step。那么文字是怎么转换成Diffusion的输入的呢？加入文字后 Diffusion 又有哪些改变？下图可以找到答案。

文字生成图片全过程

实际上 Diffusion 是使用Text Encoder生成文字对应的embedding（Text Encoder使用CLIP模型），然后和随机噪声embedding，time step embedding一起作为Diffusion的输入，最后生成理想的图片。我们看一下完整的图：

token embedding、随机噪声embedding、time embedding一起输入diffusion

上图我们看到了Diffusion的输入为token embedding和随机embedding，time embedding没有画出来。中间的Image Information Creator是由多个UNet模型组成，更详细的图如下：

更详细的结构

可以看到中间的Image Information Creator是由多个UNet组合而成的，关于UNet的结构我们放在后面来讲。

现在我们了解了加入文字embedding后 Diffusion 的结构，那么文字的embedding是如何生成的？接下来我们介绍下如何使用CLIP模型生成文字embedding。

CLIP 在图像及其描述的数据集上进行训练。想象一个看起来像这样的数据集，包含4 亿张图片及其说明：