stable Diffusion版本简介

组织:Stability AI, Applied Research

论文地址:

*https://arxiv.org/pdf/2307.01952.pdf*

代码地址:

*https://github.com/Stability-AI/generative-models*

模型权重:

*https://huggingface.co/stabilit*

SD v1.5
SD v1.6 Stable Diffusion V1.6(SD1.6)模型,不过目前为止它仍然是闭源的,我们只能通过申请试用的方式获得SD1.6的API调
SD V2.0 SD V2.0 与SD 1.5模型相比,SD 2.0模型主要改动了模型结构训练数据两个部分。SD 2.0使用的CLIP ViT-H/14模型相比SD 1.x使用的 OpenAI CLIP ViT-L/14模型,在Imagenet top1(分类准确率75.4% -> 78.0%)、Mscoco image retrieval at 5(多模态检索任务指标61% -> 73.4%)以及Flickr30k image retrieval at 5(多模态检索任务指标87% -> 94%)上均有明显的提升,表明CLIP ViT-H/14模型的Text Encoder能够输出更准确的文本语义信息。
SD V2.1 SD V2.1模型在SD V2.0模型的基础上提高了生成图像的质量,由于SD V2.0在训练过程中采用NSFW检测器过滤掉了可能包含安全风险的图像(punsafe=0.1),但是也同时过滤了很多人像图片,这导致SD V2.0在人像生成上效果并不理想,所以SD V2.1在SD V2.0的基础上放开了限制(punsafe=0.98)继续进行微调训练,使得人像的生成效果得到了优化和增强,其原生基本生成分辨率 768x768。
SDXL 0.9
SDXL 1.0 更好的成像质量:SDXL能够以几乎任何艺术风格生成高质量的图像,SDXL 1.0比SD v1.5和SD v2.1(甚至比SDXL 0.9)都有巨大的提升!盲测者评估图像在各种风格、概念和类别中的整体质量和美学都是最好的。
SD Turbo SD Turbo模型是在Stable Diffusion V2.1的基础上,通过蒸馏训练得到的精简版本,其本质上还是一个Stable Diffusion V2.1模型,其网络架构不变。 不如 lightning
SDXL-Lightning 基于Stability AI的stable-diffusion-xl-base-1.0模型开发的,采用了一种结合渐进式和对抗式蒸馏的扩散蒸馏方法进行提炼。渐进式蒸馏保留了原模型的图像风格和种类,而对抗式蒸馏则提升了图像生成的质量。这两种方法的结合使得SDXL-Lightning在快速出图和高质量、多样化之间找到了平衡点,即使在快速出图的同时,也能保持较高的图像质量,并且覆盖广泛的图像模式。

SDXL-Lightning 模型可以通过 1 步、2 步、4 步和 8 步来生成图像。推理步骤越多,图像质量越好。

| | SD3.0 | https://stability.ai/news/stable-diffusion-3
Stable Diffusion 3.0采用了与Sora相似的Diffusion Transformer技术 The Stable Diffusion 3 suite of models currently ranges from 800M to 8B parameters. 字体控制能力很强 API: https://platform.stability.ai/docs/api-reference#tag/Generate/paths/~1v2beta~1stable-image~1generate~1sd3/post |

  1. SD (Stable Diffusion):

  2. SDXL (Stable Diffusion XL):

  3. SDXL-Distilled:

  4. SDXL-Turbo:

  5. SDXL-Lightning:

    SDXL 的图片尺寸,不要再使用 512*512,出图效果会很差。这里再给出几个 SDXL 的推荐尺寸:
    21:9 – 1536 x 640
    16:9 – 1344 x 768
    3:2 – 1216 x 832
    5:4 – 1152 x 896
    1:1 – 1024 x 1024
    

Evaluation

SDXL

SDXL Lightning

Hyper-SD || SDXL

SDXL Turbo