Stable Diffusion 新手完全指南 2025：免费本地AI绘图，从安装到出图

📅 2025-04-28 ⏱ 阅读约 14 分钟 👁 19.4k 次阅读 🏷 AI绘图 · 免费工具 · 新手教程

Stable Diffusion是目前最强大的免费开源AI绘图模型，由Stability AI于2022年发布。与Midjourney（$10/月）、DALL-E（需ChatGPT Plus）不同，Stable Diffusion可以完全免费下载到本地运行——只要你有一张6GB以上显存的显卡，就能生成无限张图片，无任何内容审查。

本指南基于 Stable Diffusion 3.5 和主流UI界面 AUTOMATIC1111、ComfyUI，涵盖安装、提示词技巧、ControlNet精准控制等完整流程。

📊 Stable Diffusion 各版本对比一览

Stable Diffusion发展到2025年已有多个主要版本，选哪个取决于你的硬件配置和需求：

模型版本	参数量	最低显存	推荐显存	优势	适合人群
SD 1.5	860M	4 GB	6 GB	生态最丰富，LoRA模型最多（C站10万+）	入门首选
SDXL	3.5B	6 GB	8 GB	原生1024×1024，细节更丰富	主流选择
SD 3 Medium	2B	6 GB	8 GB	文字渲染大幅改善，三文本编码器	平衡之选
SD 3.5 Large	8B	10 GB	16 GB	画质最强，多模态引导，商业可用	高端首选
SD 3.5 Large Turbo	8B	10 GB	12 GB	4步采样，速度提升3×，质量接近Large	速度优先
FLUX.1 Schnell	12B	8 GB	12 GB	Apache 2.0商用，真实感最强，4步出图	2024新星

💡 2025年推荐

如果你的显卡是 RTX 3060（12GB）或以上，优先尝试 FLUX.1 Schnell（Apache 2.0许可证，完全商用，真实感业界最强）。如果只有8GB显存，选 SDXL + Juggernaut XL 模型，综合表现最佳。6GB及以下选 SD 1.5，LoRA和风格模型生态最丰富。

💻 最低硬件要求

最低配置

4 GB

VRAM，SD 1.5可用

推荐配置

8 GB

VRAM，SDXL流畅运行

高端配置

12 GB+

VRAM，FLUX.1/SD 3.5

CPU模式

16 GB

RAM，无显卡可用（极慢）

没有独立显卡也可以在云端运行：Google Colab（T4 15GB免费额度，每月约15小时）、Kaggle（P100 30h/周免费）、RunPod（按需收费，RTX 3090约$0.44/小时）。

🖥️ UI界面选哪个：AUTOMATIC1111 vs ComfyUI vs Forge

AUTOMATIC1111 WebUI（推荐新手）

GitHub Stars：142,000+（2025年3月），最成熟的SD界面，插件生态最丰富（Extensions 1,200+）。界面直观，新手2小时内可掌握基本操作。

✓ 新手友好 ✓ 插件最多 ✓ 教程资源丰富 ✗ 速度较慢 ✗ 显存利用率低

ComfyUI（推荐进阶用户）

节点式工作流界面，GitHub Stars：58,000+。可视化数据流让复杂工作流（ControlNet+Lora+upscale）一目了然。速度比A1111快约20-30%，显存占用更低。

✓ 速度更快 ✓ 工作流可复用 ✓ FLUX支持最好 ✗ 学习曲线陡 ✗ 不适合零基础

SD.Next / Forge（推荐中级）

基于A1111界面但大幅优化后端，显存优化使4GB显卡能运行SDXL。Forge是A1111的分支，同样兼容大部分A1111扩展，2024年成为很多用户的迁移首选。

✓ 低显存友好 ✓ 兼容A1111插件 ✓ 速度比A1111快 ✗ 社区相对小

⚡ Windows 一键安装（AUTOMATIC1111）

Step 1

安装 Python 3.10

前往 python.org 下载 Python 3.10.x（不要用3.11/3.12，部分扩展不兼容）。安装时勾选 "Add Python to PATH"。

Step 2

安装 Git

前往 git-scm.com 下载安装 Git for Windows，所有选项保持默认。

Step 3

克隆 AUTOMATIC1111 仓库

打开命令提示符（Win+R → cmd），运行：

cd C:\
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

Step 4

下载模型文件（.safetensors）

从 Civitai 或 Hugging Face 下载 .safetensors 文件，放入：

C:\stable-diffusion-webui\models\Stable-diffusion\

推荐入门模型：

Realistic Vision V6.0（SD 1.5基础，真实人像，CivitAI下载量第一）
Juggernaut XL v9（SDXL基础，综合最强，5.86GB）
DreamShaper XL（SDXL基础，写实与艺术均衡，免费商用）

Step 5

启动 WebUI

双击运行 webui-user.bat，首次启动会自动下载必要依赖（约需10-20分钟）。完成后浏览器自动打开 http://127.0.0.1:7860。

⚠️ 常见问题

显存不足：在 webui-user.bat 中 set COMMANDLINE_ARGS= 后添加 --medvram（6GB）或 --lowvram（4GB）。
AMD显卡：添加 --use-directml 参数。
网络超时：设置镜像源 set HF_ENDPOINT=https://hf-mirror.com。

✍️ 提示词（Prompt）核心技巧

提示词质量直接决定出图效果。SD提示词分为正向提示词（想要什么）和负向提示词（不要什么）两部分。

提示词结构模板

【画质标签】, 【主体描述】, 【场景环境】, 【光线氛围】, 【摄影风格】, 【艺术风格】

高质量正向提示词示例（写实人像）

masterpiece, best quality, ultra-detailed, 8k, RAW photo, 1girl, 25 years old, long black hair, (wearing white dress:1.2), standing in a sunlit cafe, warm bokeh background, golden hour lighting, soft shadows, shot by Canon EOS R5, 85mm lens, f/1.4 aperture, photorealistic, hyperrealistic

黄金负向提示词（通用）

lowres, bad anatomy, bad hands, missing fingers, extra fingers, ugly, worst quality, low quality, normal quality, blurry, out of focus, noise, jpeg artifacts, deformed, mutated, extra limbs, watermark, text, logo, (nsfw:1.5), username, signature

关键提示词技巧

权重调整：用 (关键词:1.3) 增强某特征（1.0为默认，1.5为上限），(关键词:0.8) 减弱。如 (red hair:1.4) 加强红发效果。
AND语法：prompt A AND prompt B 融合两种风格，每部分权重可单独设置。
提示词分段：逗号分隔，前面的词权重高于后面的词。重要特征放在最前面。
LoRA触发词：使用LoRA模型时必须加入对应触发词（每个LoRA页面都有标注）。
中文不支持：SD提示词必须使用英文，中文会被忽略或产生随机效果。

采样器（Sampler）选择

采样器	推荐步数	速度	特点
DPM++ 2M Karras	20-25步	快	最流行，质量稳定，推荐新手
Euler a	20-30步	快	富有创意，步数增加图像变化大
DDIM	20-30步	中	确定性高，适合img2img微调
DPM++ SDE Karras	15-20步	慢	细节最丰富，步数少仍有效果
LCM	4-8步	极快	配合LCM LoRA使用，4步出图

🎛️ ControlNet：精准控制画面构图

ControlNet 是 SD 最重要的扩展之一，允许你通过骨骼、边缘、深度图等精准控制AI生成内容的姿势和构图，解决了AI绘图"无法精确控制"的核心痛点。

主要 ControlNet 模式

模式	输入	控制效果	典型应用
OpenPose	人物图片	提取骨骼姿势，换人物/服装	固定动作生成不同人物
Canny	任意图片	边缘线检测，保持物体轮廓	产品换背景、建筑重绘
Depth	任意图片	提取深度信息，保持空间关系	室内设计重绘、风景重绘
Lineart	线稿/草图	精准上色，保持线条	漫画线稿上色
IP-Adapter	参考图片	提取图像风格/人物特征	人物一致性保持（换场景）
Inpaint	图片+蒙版	局部重绘，保留其余区域	修复瑕疵、替换局部元素

💡 ControlNet 安装方法

在 A1111 界面点击 Extensions → Install from URL，输入：
https://github.com/Mikubill/sd-webui-controlnet
安装后重启WebUI，再从 Hugging Face 下载对应的 ControlNet 模型文件（.safetensors）放入 models/ControlNet/ 文件夹。

🎨 LoRA模型：5分钟换风格

LoRA（Low-Rank Adaptation）是SD生态中最重要的微调模型格式，文件小（10-200MB），可在不改变基础模型的情况下快速切换画风、人物、风格。Civitai 目前有超过 15万个 LoRA模型可免费下载。

使用方法

1. 下载 .safetensors 格式的LoRA文件，放入 models/Lora/ 文件夹

2. 在提示词中加入 <lora:模型名称:0.8>（权重建议0.6-1.0）

3. 加入该LoRA的触发词（在下载页面查看）

高质量推荐 LoRA（SD 1.5 / SDXL）

Detail Tweaker LoRA：增强细节丰富度，任何模型通用，权重0.5-1.0
Colorwater：水彩画风格，画面柔和梦幻
GTA5 Artwork：GTA5游戏插画风格，颜色鲜明
Epinoiseoffset：提升明暗对比，修复过曝问题
Film Grain LoRA：添加胶片质感噪点，复古摄影风

📐 关键参数设置指南

参数	推荐范围	作用	说明
Steps（步数）	20-30	采样次数	步数越多越精细但更慢。超过30步质量提升微乎其微。
CFG Scale	6-8	提示词遵循度	越高越严格遵循提示词但会过饱和。5-7为创意，7-9为精确。
分辨率	512×512 / 1024×1024	输出尺寸	SD 1.5用512，SDXL用1024。超出训练分辨率会产生人脸畸变。
Seed	-1（随机）	随机种子	固定seed可复现相同图片，-1每次生成不同结果。
Denoising Strength	0.5-0.75	img2img修改程度	0=不改变原图，1=完全重绘。0.5-0.7保留原图轮廓微调细节。
Hires Fix	开启	高清放大	先生成低分辨率再高清修复，避免直接生成高分辨率的人脸崩坏问题。

🔗 必备资源汇总

模型下载

Civitai：全球最大SD模型社区，15万+ 模型，支持按类型/基础模型/评分筛选
Hugging Face：官方研究级模型，SD 3.5/FLUX等最新模型首发平台
OpenArt Prompt Book：免费提示词参考手册，1500+ 风格示例

在线运行（无需本地GPU）

Google Colab：T4 GPU 15GB显存，每月约15小时免费额度，支持A1111/ComfyUI
Kaggle Notebooks：P100 16GB显存，每周30小时免费
Massed Compute：专为SD设计的云端运行，$10存款赠$5用量

学习资源

r/StableDiffusion：Reddit社区，170万成员，每日更新技巧和作品
Civitai 文章：模型教程、工作流分享
YouTube频道：Olivio Sarikas、Sebastian Kamph，中文推荐「秋叶aaaki」

❓ 常见问题

Q：Mac能运行Stable Diffusion吗？

可以。Apple Silicon（M1/M2/M3）有专用的优化版本，推荐使用 AUTOMATIC1111 for Apple Silicon 或 Diffusers 库。M1 Pro/Max以上表现较好，M1基础版较慢。Metal GPU加速已经相对成熟，8GB统一内存能运行SD 1.5，16GB以上可以运行SDXL。

Q：生成的图片可以商用吗？

取决于你使用的模型许可证：FLUX.1 Schnell（Apache 2.0，完全商用）、SD 1.5（CreativeML Open RAIL-M，商用需标注）、部分Civitai模型禁止商用（查看各模型License页面）。商业项目建议优先选用 Apache 2.0 许可证模型。

Q：和Midjourney比，Stable Diffusion的优缺点？

维度	Stable Diffusion	Midjourney
价格	完全免费（本地）	$10/月起，无免费试用
画质上限	8分（高手调教后可媲美）	9分（艺术风格最强）
新手友好度	低（需要配置环境）	高（Discord一条命令出图）
精准控制	强（ControlNet精准控制）	弱（有限的姿势控制）
内容限制	本地无审查	严格内容审查
自定义训练	支持（DreamBooth/LoRA）	不支持

🚀 推荐新手第一周学习路线

Day 1-2

安装 + 基础出图

按照上方安装教程完成环境配置，下载 Realistic Vision V6 模型，用默认参数生成第一张图，熟悉界面布局（正/负向提示词、步数、CFG）。

Day 3-4

提示词深挖

学习权重调整 (词:1.3)，收集黄金负向提示词，参考 Civitai 作品的提示词，用相同参数复现并理解每个词的作用。

Day 5-6

LoRA + 换风格

从 Civitai 下载2-3个LoRA，学习触发词用法，尝试同一主体在不同风格LoRA下的出图效果对比。

Day 7

img2img + 高清放大

学习 img2img（对已有图片二次创作），开启 Hires Fix 将512×512放大到1024×1024，体验画质提升。

📌 总结

Stable Diffusion 的学习曲线比 Midjourney 陡，但一旦掌握，你将拥有几乎无限的创作自由度：本地无限生成、完全定制模型、精准控制构图。2025年推荐新手路线：AUTOMATIC1111 + Juggernaut XL + DPM++ 2M Karras + ControlNet Pose，这个组合能覆盖80%的日常需求。

🎨 2025最强AI图像生成器对比

Midjourney vs FLUX vs Ideogram vs DALL-E 3

🆓 7个免费Midjourney替代工具

Ideogram、Leonardo AI、Adobe Firefly实测对比

🚀 2025年15个完全免费AI工具

无需信用卡，覆盖绘图、写作、编程全场景