Stable Diffusion 新手完全指南 2025:免费本地AI绘图,从安装到出图
本指南基于 Stable Diffusion 3.5 和主流UI界面 AUTOMATIC1111、ComfyUI,涵盖安装、提示词技巧、ControlNet精准控制等完整流程。
📊 Stable Diffusion 各版本对比一览
Stable Diffusion发展到2025年已有多个主要版本,选哪个取决于你的硬件配置和需求:
| 模型版本 | 参数量 | 最低显存 | 推荐显存 | 优势 | 适合人群 |
|---|---|---|---|---|---|
| SD 1.5 | 860M | 4 GB | 6 GB | 生态最丰富,LoRA模型最多(C站10万+) | 入门首选 |
| SDXL | 3.5B | 6 GB | 8 GB | 原生1024×1024,细节更丰富 | 主流选择 |
| SD 3 Medium | 2B | 6 GB | 8 GB | 文字渲染大幅改善,三文本编码器 | 平衡之选 |
| SD 3.5 Large | 8B | 10 GB | 16 GB | 画质最强,多模态引导,商业可用 | 高端首选 |
| SD 3.5 Large Turbo | 8B | 10 GB | 12 GB | 4步采样,速度提升3×,质量接近Large | 速度优先 |
| FLUX.1 Schnell | 12B | 8 GB | 12 GB | Apache 2.0商用,真实感最强,4步出图 | 2024新星 |
💻 最低硬件要求
没有独立显卡也可以在云端运行:Google Colab(T4 15GB免费额度,每月约15小时)、Kaggle(P100 30h/周免费)、RunPod(按需收费,RTX 3090约$0.44/小时)。
🖥️ UI界面选哪个:AUTOMATIC1111 vs ComfyUI vs Forge
AUTOMATIC1111 WebUI(推荐新手)
GitHub Stars:142,000+(2025年3月),最成熟的SD界面,插件生态最丰富(Extensions 1,200+)。界面直观,新手2小时内可掌握基本操作。
ComfyUI(推荐进阶用户)
节点式工作流界面,GitHub Stars:58,000+。可视化数据流让复杂工作流(ControlNet+Lora+upscale)一目了然。速度比A1111快约20-30%,显存占用更低。
SD.Next / Forge(推荐中级)
基于A1111界面但大幅优化后端,显存优化使4GB显卡能运行SDXL。Forge是A1111的分支,同样兼容大部分A1111扩展,2024年成为很多用户的迁移首选。
⚡ Windows 一键安装(AUTOMATIC1111)
前往 python.org 下载 Python 3.10.x(不要用3.11/3.12,部分扩展不兼容)。安装时勾选 "Add Python to PATH"。
打开命令提示符(Win+R → cmd),运行:
从 Civitai 或 Hugging Face 下载 .safetensors 文件,放入:
推荐入门模型:
- Realistic Vision V6.0(SD 1.5基础,真实人像,CivitAI下载量第一)
- Juggernaut XL v9(SDXL基础,综合最强,5.86GB)
- DreamShaper XL(SDXL基础,写实与艺术均衡,免费商用)
双击运行 webui-user.bat,首次启动会自动下载必要依赖(约需10-20分钟)。完成后浏览器自动打开 http://127.0.0.1:7860。
--medvram(6GB)或 --lowvram(4GB)。AMD显卡:添加
--use-directml 参数。网络超时:设置镜像源
set HF_ENDPOINT=https://hf-mirror.com。
✍️ 提示词(Prompt)核心技巧
提示词质量直接决定出图效果。SD提示词分为正向提示词(想要什么)和负向提示词(不要什么)两部分。
提示词结构模板
高质量正向提示词示例(写实人像)
黄金负向提示词(通用)
关键提示词技巧
- 权重调整:用
(关键词:1.3)增强某特征(1.0为默认,1.5为上限),(关键词:0.8)减弱。如(red hair:1.4)加强红发效果。 - AND语法:
prompt A AND prompt B融合两种风格,每部分权重可单独设置。 - 提示词分段:逗号分隔,前面的词权重高于后面的词。重要特征放在最前面。
- LoRA触发词:使用LoRA模型时必须加入对应触发词(每个LoRA页面都有标注)。
- 中文不支持:SD提示词必须使用英文,中文会被忽略或产生随机效果。
采样器(Sampler)选择
| 采样器 | 推荐步数 | 速度 | 特点 |
|---|---|---|---|
| DPM++ 2M Karras | 20-25步 | 快 | 最流行,质量稳定,推荐新手 |
| Euler a | 20-30步 | 快 | 富有创意,步数增加图像变化大 |
| DDIM | 20-30步 | 中 | 确定性高,适合img2img微调 |
| DPM++ SDE Karras | 15-20步 | 慢 | 细节最丰富,步数少仍有效果 |
| LCM | 4-8步 | 极快 | 配合LCM LoRA使用,4步出图 |
🎛️ ControlNet:精准控制画面构图
ControlNet 是 SD 最重要的扩展之一,允许你通过骨骼、边缘、深度图等精准控制AI生成内容的姿势和构图,解决了AI绘图"无法精确控制"的核心痛点。
主要 ControlNet 模式
| 模式 | 输入 | 控制效果 | 典型应用 |
|---|---|---|---|
| OpenPose | 人物图片 | 提取骨骼姿势,换人物/服装 | 固定动作生成不同人物 |
| Canny | 任意图片 | 边缘线检测,保持物体轮廓 | 产品换背景、建筑重绘 |
| Depth | 任意图片 | 提取深度信息,保持空间关系 | 室内设计重绘、风景重绘 |
| Lineart | 线稿/草图 | 精准上色,保持线条 | 漫画线稿上色 |
| IP-Adapter | 参考图片 | 提取图像风格/人物特征 | 人物一致性保持(换场景) |
| Inpaint | 图片+蒙版 | 局部重绘,保留其余区域 | 修复瑕疵、替换局部元素 |
https://github.com/Mikubill/sd-webui-controlnet安装后重启WebUI,再从 Hugging Face 下载对应的 ControlNet 模型文件(.safetensors)放入
models/ControlNet/ 文件夹。
🎨 LoRA模型:5分钟换风格
LoRA(Low-Rank Adaptation)是SD生态中最重要的微调模型格式,文件小(10-200MB),可在不改变基础模型的情况下快速切换画风、人物、风格。Civitai 目前有超过 15万个 LoRA模型可免费下载。
使用方法
1. 下载 .safetensors 格式的LoRA文件,放入 models/Lora/ 文件夹
2. 在提示词中加入 <lora:模型名称:0.8>(权重建议0.6-1.0)
3. 加入该LoRA的触发词(在下载页面查看)
高质量推荐 LoRA(SD 1.5 / SDXL)
- Detail Tweaker LoRA:增强细节丰富度,任何模型通用,权重0.5-1.0
- Colorwater:水彩画风格,画面柔和梦幻
- GTA5 Artwork:GTA5游戏插画风格,颜色鲜明
- Epinoiseoffset:提升明暗对比,修复过曝问题
- Film Grain LoRA:添加胶片质感噪点,复古摄影风
📐 关键参数设置指南
| 参数 | 推荐范围 | 作用 | 说明 |
|---|---|---|---|
| Steps(步数) | 20-30 | 采样次数 | 步数越多越精细但更慢。超过30步质量提升微乎其微。 |
| CFG Scale | 6-8 | 提示词遵循度 | 越高越严格遵循提示词但会过饱和。5-7为创意,7-9为精确。 |
| 分辨率 | 512×512 / 1024×1024 | 输出尺寸 | SD 1.5用512,SDXL用1024。超出训练分辨率会产生人脸畸变。 |
| Seed | -1(随机) | 随机种子 | 固定seed可复现相同图片,-1每次生成不同结果。 |
| Denoising Strength | 0.5-0.75 | img2img修改程度 | 0=不改变原图,1=完全重绘。0.5-0.7保留原图轮廓微调细节。 |
| Hires Fix | 开启 | 高清放大 | 先生成低分辨率再高清修复,避免直接生成高分辨率的人脸崩坏问题。 |
🔗 必备资源汇总
模型下载
- Civitai:全球最大SD模型社区,15万+ 模型,支持按类型/基础模型/评分筛选
- Hugging Face:官方研究级模型,SD 3.5/FLUX等最新模型首发平台
- OpenArt Prompt Book:免费提示词参考手册,1500+ 风格示例
在线运行(无需本地GPU)
- Google Colab:T4 GPU 15GB显存,每月约15小时免费额度,支持A1111/ComfyUI
- Kaggle Notebooks:P100 16GB显存,每周30小时免费
- Massed Compute:专为SD设计的云端运行,$10存款赠$5用量
学习资源
- r/StableDiffusion:Reddit社区,170万成员,每日更新技巧和作品
- Civitai 文章:模型教程、工作流分享
- YouTube频道:Olivio Sarikas、Sebastian Kamph,中文推荐「秋叶aaaki」
❓ 常见问题
Q:Mac能运行Stable Diffusion吗?
可以。Apple Silicon(M1/M2/M3)有专用的优化版本,推荐使用 AUTOMATIC1111 for Apple Silicon 或 Diffusers 库。M1 Pro/Max以上表现较好,M1基础版较慢。Metal GPU加速已经相对成熟,8GB统一内存能运行SD 1.5,16GB以上可以运行SDXL。
Q:生成的图片可以商用吗?
取决于你使用的模型许可证:FLUX.1 Schnell(Apache 2.0,完全商用)、SD 1.5(CreativeML Open RAIL-M,商用需标注)、部分Civitai模型禁止商用(查看各模型License页面)。商业项目建议优先选用 Apache 2.0 许可证模型。
Q:和Midjourney比,Stable Diffusion的优缺点?
| 维度 | Stable Diffusion | Midjourney |
|---|---|---|
| 价格 | 完全免费(本地) | $10/月起,无免费试用 |
| 画质上限 | 8分(高手调教后可媲美) | 9分(艺术风格最强) |
| 新手友好度 | 低(需要配置环境) | 高(Discord一条命令出图) |
| 精准控制 | 强(ControlNet精准控制) | 弱(有限的姿势控制) |
| 内容限制 | 本地无审查 | 严格内容审查 |
| 自定义训练 | 支持(DreamBooth/LoRA) | 不支持 |
🚀 推荐新手第一周学习路线
按照上方安装教程完成环境配置,下载 Realistic Vision V6 模型,用默认参数生成第一张图,熟悉界面布局(正/负向提示词、步数、CFG)。
学习权重调整 (词:1.3),收集黄金负向提示词,参考 Civitai 作品的提示词,用相同参数复现并理解每个词的作用。
从 Civitai 下载2-3个LoRA,学习触发词用法,尝试同一主体在不同风格LoRA下的出图效果对比。
学习 img2img(对已有图片二次创作),开启 Hires Fix 将512×512放大到1024×1024,体验画质提升。