模型版本 | Notion

stable Diffusion版本简介

组织：Stability AI, Applied Research

论文地址：

*https://arxiv.org/pdf/2307.01952.pdf*

代码地址：

*https://github.com/Stability-AI/generative-models*

模型权重：

SD v1.5
SD v1.6	Stable Diffusion V1.6（SD1.6）模型，不过目前为止它仍然是闭源的，我们只能通过申请试用的方式获得SD1.6的API调
SD V2.0	SD V2.0 与SD 1.5模型相比，SD 2.0模型主要改动了模型结构和训练数据两个部分。SD 2.0使用的CLIP ViT-H/14模型相比SD 1.x使用的 OpenAI CLIP ViT-L/14模型，在Imagenet top1（分类准确率75.4% -> 78.0%）、Mscoco image retrieval at 5（多模态检索任务指标61% -> 73.4%）以及Flickr30k image retrieval at 5（多模态检索任务指标87% -> 94%）上均有明显的提升，表明CLIP ViT-H/14模型的Text Encoder能够输出更准确的文本语义信息。
SD V2.1	SD V2.1模型在SD V2.0模型的基础上提高了生成图像的质量，由于SD V2.0在训练过程中采用NSFW检测器过滤掉了可能包含安全风险的图像（punsafe=0.1），但是也同时过滤了很多人像图片，这导致SD V2.0在人像生成上效果并不理想，所以SD V2.1在SD V2.0的基础上放开了限制（punsafe=0.98）继续进行微调训练，使得人像的生成效果得到了优化和增强，其原生基本生成分辨率 768x768。
SDXL 0.9
SDXL 1.0	更好的成像质量：SDXL能够以几乎任何艺术风格生成高质量的图像，SDXL 1.0比SD v1.5和SD v2.1（甚至比SDXL 0.9）都有巨大的提升！盲测者评估图像在各种风格、概念和类别中的整体质量和美学都是最好的。
SD Turbo	SD Turbo模型是在Stable Diffusion V2.1的基础上，通过蒸馏训练得到的精简版本，其本质上还是一个Stable Diffusion V2.1模型，其网络架构不变。不如 lightning
SDXL-Lightning	基于Stability AI的stable-diffusion-xl-base-1.0模型开发的，采用了一种结合渐进式和对抗式蒸馏的扩散蒸馏方法进行提炼。渐进式蒸馏保留了原模型的图像风格和种类，而对抗式蒸馏则提升了图像生成的质量。这两种方法的结合使得SDXL-Lightning在快速出图和高质量、多样化之间找到了平衡点，即使在快速出图的同时，也能保持较高的图像质量，并且覆盖广泛的图像模式。

SDXL-Lightning 模型可以通过 1 步、2 步、4 步和 8 步来生成图像。推理步骤越多，图像质量越好。

| | SD3.0 | https://stability.ai/news/stable-diffusion-3
Stable Diffusion 3.0采用了与Sora相似的Diffusion Transformer技术 The Stable Diffusion 3 suite of models currently ranges from 800M to 8B parameters. 字体控制能力很强 API： https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post |

SD (Stable Diffusion):
- SD 是 Stability AI 最初发布的基础文本到图像的生成模型。
- 它是一个通用的模型，能够根据文本提示生成各种类型的图像。
- SD 模型通常需要多个采样步骤来生成高质量的图像。
SDXL (Stable Diffusion XL):
- SDXL 是 SD 的扩展版本，提供了更大的模型尺寸和更高的图像分辨率。
- 它是为了处理更复杂的图像生成任务而设计的，能够生成更详细和高质量的图像。
- SDXL 模型通常比 SD 模型更大，因此需要更多的计算资源。
SDXL-Distilled:
- SDXL-Distilled 是通过蒸馏技术从 SDXL 模型创建的轻量级版本。
- 它的目的是在保持 SDXL 高质量图像生成能力的同时减少模型的大小和计算需求。
- 这个版本适合资源有限的环境，同时仍然希望获得高质量的图像生成结果。
SDXL-Turbo:
- SD Turbo模型是在Stable Diffusion V2.1的基础上，通过蒸馏训练得到的精简版本，其本质上还是一个Stable Diffusion V2.1模型，其网络架构不变。
- SDXL-Turbo 是采用对抗性扩散蒸馏（ADD）技术训练的模型，能够实现单步或极少数步骤的快速图像生成。
- 它是为了在需要极快速响应的应用中使用而设计的，如实时图像编辑或交互式内容创建。
- SDXL-Turbo 在速度和质量之间取得了很好的平衡，能够在几乎瞬间生成高质量的图像。
SDXL-Lightning:
- SDXL-Lightning 可能是 SDXL 系列中的另一个变体，旨在进一步优化速度和效率。
- 这个版本的具体细节没有在提供的信息中明确说明，但它可能代表了对 SDXL 模型的进一步改进或特定应用场景的优化。
- We provide both full UNet and LoRA checkpoints. The full UNet models have the best quality while the LoRA models can be applied to other base models.——我们提供完整的UNet和LoRA检查点。完整的UNet模型具有最好的质量，而LoRA模型可以应用于其他基础模型。
```
SDXL 的图片尺寸，不要再使用 512*512，出图效果会很差。这里再给出几个 SDXL 的推荐尺寸：
21:9 – 1536 x 640
16:9 – 1344 x 768
3:2 – 1216 x 832
5:4 – 1152 x 896
1:1 – 1024 x 1024
```