性能优化｜推理加速


--opt-sdp-attention --opt-split-attention --no-hashing

StableDiffusion 显存优化推理加速方案(TensorRT 、oneflow 、xFormers、cuDNN、LCM、Turbo LoRA、fp8)

优化Stable Diffusion XL的终极指南

xFormers ，AITemplate，Tensorrt，Oneflow 、推理加速研究和实测

diffusers SD推理加速方案的调研实践总结

DeepCache

扩散模型因其卓越的生成能力，最近在图像合成领域获得了前所未有的关注。尽管这些模型性能出众，但通常会产生大量的计算成本，这主要归因于顺序去噪过程和繁琐的模型大小。压缩扩散模型的传统方法通常涉及大量的再训练，带来了成本和可行性方面的挑战。在本文中，我们介绍了 DeepCache，一种从模型架构角度加速扩散模型的新型免训练范式。DeepCache 利用扩散模型顺序去噪步骤中固有的时间冗余，缓存并检索相邻去噪阶段的特征，从而减少冗余计算。利用 U-Net 的特性，我们在重复使用高级特征的同时，还能以非常低廉的成本更新低级特征。这一创新策略反过来又使稳定扩散 v1.5 的速度提高了 2.3 倍，而 CLIP 分数仅下降了 0.05；使 LDM-4-G 的速度提高了 4.1 倍，而 ImageNet 上的 FID 仅略微下降了 0.22。我们的实验还证明，DeepCache 优于需要重新训练的现有剪枝和蒸馏方法，而且与当前的采样技术兼容。此外，我们还发现，在相同的吞吐量下，DeepCache 能有效地实现与 DDIM 或 DDIM 相似甚至略有改进的结果。

https://github.com/horseee/DeepCache

DeepCache: Accelerating Diffusion Models for Free

https://github.com/aria1th/sd-webui-deepcache-standalone

Oneflow

效果要实际测试才知道