Stable Diffusion checkpoint:这里可以选择已经下载的模型。目前许多平台支持开源的 SD 模型下载,例如 Civitai、Hugging Face 等。 txt2img:这个选项表示启用文生图(text-to-image)功能。类似地,img2img 等选项则代表其他功能。 prompt:用于生成图像的文字输入,需要使用英文输入,但你也可以通过探索 Extensions 来实现中文输入。 negative prompt:这是生成图像的反向提示词,用于指定你不希望模型生成的内容。例如,如果你不想图像中出现红色,可以在这里输入“red”。 Sampling method:不同的采样算法,这里深入了 Diffusion 算法领域,稍后我们会更详细地讲解。简单来说,通过这些采样算法,噪声图像可以逐渐变得更清晰。 Sampling steps:与采样算法配合使用,表示生成图像的步数。步数越大,需要等待的时间越长。通常 20-30 步就足够了。 Width & Height:生成图像的宽度和高度。 Batch size:每次生成的图像数。如果显存不够大,建议调小这个数值。 CFG scale:这里表示 prompt 的影响程度。值越大,prompt 的影响就越大。 Seed:生成图像的随机种子,类似于抽奖的幸运种子,会影响生成的图像结果。
这是 Stable Diffusion 绘图的基础模型,不同的主模型有不同的画风和擅长领域。
Variational autoencoder,中文名变分自编码器,作用可以理解为滤镜+微调,有的大模型有对应的VAE,没有的也可以选择使用常用的vae-ft-mse-840000-ema-pruned.safetensors,作用就是让图片看起来不那么灰蒙蒙的,会更加鲜艳。
用于滤镜和微调,有些大模型自带VAE。
全称Low-Rank Adaptation of LargeLanguage Models,直译为大语言模型的低阶适应,这是微软的研究人员为了解决大语言模型微调而开发的一项技术。LoRA的作用是可以让结果倾向于一种风格,比如使用水墨风LoRA可以使结果是水墨风格,使用人物LoRA可以使人物趋向于一种样貌。
一种微调模型,可以固定某一类型的风格,必须与checkpoint模型一起使用。
****可以理解为把大量的提示词(prompt、tag)打包在一起,就把他理解为提示词合集也行,所以文件很小。和LoRA有点类似,比如使用冬天风格的embedding可以使结果趋向于冬天。