Stable Diffusion 新手完全指南 2025:免费本地AI绘图,从安装到出图

📅 2025-04-28 ⏱ 阅读约 14 分钟 👁 19.4k 次阅读 🏷 AI绘图 · 免费工具 · 新手教程
Stable Diffusion是目前最强大的免费开源AI绘图模型,由Stability AI于2022年发布。与Midjourney($10/月)、DALL-E(需ChatGPT Plus)不同,Stable Diffusion可以完全免费下载到本地运行——只要你有一张6GB以上显存的显卡,就能生成无限张图片,无任何内容审查。

本指南基于 Stable Diffusion 3.5 和主流UI界面 AUTOMATIC1111、ComfyUI,涵盖安装、提示词技巧、ControlNet精准控制等完整流程。

📊 Stable Diffusion 各版本对比一览

Stable Diffusion发展到2025年已有多个主要版本,选哪个取决于你的硬件配置和需求:

模型版本参数量最低显存推荐显存优势适合人群
SD 1.5 860M 4 GB 6 GB 生态最丰富,LoRA模型最多(C站10万+) 入门首选
SDXL 3.5B 6 GB 8 GB 原生1024×1024,细节更丰富 主流选择
SD 3 Medium 2B 6 GB 8 GB 文字渲染大幅改善,三文本编码器 平衡之选
SD 3.5 Large 8B 10 GB 16 GB 画质最强,多模态引导,商业可用 高端首选
SD 3.5 Large Turbo 8B 10 GB 12 GB 4步采样,速度提升3×,质量接近Large 速度优先
FLUX.1 Schnell 12B 8 GB 12 GB Apache 2.0商用,真实感最强,4步出图 2024新星
💡 2025年推荐
如果你的显卡是 RTX 3060(12GB)或以上,优先尝试 FLUX.1 Schnell(Apache 2.0许可证,完全商用,真实感业界最强)。如果只有8GB显存,选 SDXL + Juggernaut XL 模型,综合表现最佳。6GB及以下选 SD 1.5,LoRA和风格模型生态最丰富。

💻 最低硬件要求

最低配置
4 GB
VRAM,SD 1.5可用
推荐配置
8 GB
VRAM,SDXL流畅运行
高端配置
12 GB+
VRAM,FLUX.1/SD 3.5
CPU模式
16 GB
RAM,无显卡可用(极慢)

没有独立显卡也可以在云端运行:Google Colab(T4 15GB免费额度,每月约15小时)、Kaggle(P100 30h/周免费)、RunPod(按需收费,RTX 3090约$0.44/小时)。

🖥️ UI界面选哪个:AUTOMATIC1111 vs ComfyUI vs Forge

AUTOMATIC1111 WebUI(推荐新手)

GitHub Stars:142,000+(2025年3月),最成熟的SD界面,插件生态最丰富(Extensions 1,200+)。界面直观,新手2小时内可掌握基本操作。

✓ 新手友好 ✓ 插件最多 ✓ 教程资源丰富 ✗ 速度较慢 ✗ 显存利用率低

ComfyUI(推荐进阶用户)

节点式工作流界面,GitHub Stars:58,000+。可视化数据流让复杂工作流(ControlNet+Lora+upscale)一目了然。速度比A1111快约20-30%,显存占用更低。

✓ 速度更快 ✓ 工作流可复用 ✓ FLUX支持最好 ✗ 学习曲线陡 ✗ 不适合零基础

SD.Next / Forge(推荐中级)

基于A1111界面但大幅优化后端,显存优化使4GB显卡能运行SDXL。Forge是A1111的分支,同样兼容大部分A1111扩展,2024年成为很多用户的迁移首选。

✓ 低显存友好 ✓ 兼容A1111插件 ✓ 速度比A1111快 ✗ 社区相对小

⚡ Windows 一键安装(AUTOMATIC1111)

Step 1
安装 Python 3.10

前往 python.org 下载 Python 3.10.x(不要用3.11/3.12,部分扩展不兼容)。安装时勾选 "Add Python to PATH"

Step 2
安装 Git

前往 git-scm.com 下载安装 Git for Windows,所有选项保持默认。

Step 3
克隆 AUTOMATIC1111 仓库

打开命令提示符(Win+R → cmd),运行:

cd C:\ git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git cd stable-diffusion-webui
Step 4
下载模型文件(.safetensors)

CivitaiHugging Face 下载 .safetensors 文件,放入:

C:\stable-diffusion-webui\models\Stable-diffusion\

推荐入门模型:

Step 5
启动 WebUI

双击运行 webui-user.bat,首次启动会自动下载必要依赖(约需10-20分钟)。完成后浏览器自动打开 http://127.0.0.1:7860

⚠️ 常见问题
显存不足:在 webui-user.bat 中 set COMMANDLINE_ARGS= 后添加 --medvram(6GB)或 --lowvram(4GB)。
AMD显卡:添加 --use-directml 参数。
网络超时:设置镜像源 set HF_ENDPOINT=https://hf-mirror.com

✍️ 提示词(Prompt)核心技巧

提示词质量直接决定出图效果。SD提示词分为正向提示词(想要什么)和负向提示词(不要什么)两部分。

提示词结构模板

【画质标签】, 【主体描述】, 【场景环境】, 【光线氛围】, 【摄影风格】, 【艺术风格】

高质量正向提示词示例(写实人像)

masterpiece, best quality, ultra-detailed, 8k, RAW photo, 1girl, 25 years old, long black hair, (wearing white dress:1.2), standing in a sunlit cafe, warm bokeh background, golden hour lighting, soft shadows, shot by Canon EOS R5, 85mm lens, f/1.4 aperture, photorealistic, hyperrealistic

黄金负向提示词(通用)

lowres, bad anatomy, bad hands, missing fingers, extra fingers, ugly, worst quality, low quality, normal quality, blurry, out of focus, noise, jpeg artifacts, deformed, mutated, extra limbs, watermark, text, logo, (nsfw:1.5), username, signature

关键提示词技巧

采样器(Sampler)选择

采样器推荐步数速度特点
DPM++ 2M Karras20-25步最流行,质量稳定,推荐新手
Euler a20-30步富有创意,步数增加图像变化大
DDIM20-30步确定性高,适合img2img微调
DPM++ SDE Karras15-20步细节最丰富,步数少仍有效果
LCM4-8步极快配合LCM LoRA使用,4步出图

🎛️ ControlNet:精准控制画面构图

ControlNet 是 SD 最重要的扩展之一,允许你通过骨骼、边缘、深度图等精准控制AI生成内容的姿势和构图,解决了AI绘图"无法精确控制"的核心痛点。

主要 ControlNet 模式

模式输入控制效果典型应用
OpenPose 人物图片 提取骨骼姿势,换人物/服装 固定动作生成不同人物
Canny 任意图片 边缘线检测,保持物体轮廓 产品换背景、建筑重绘
Depth 任意图片 提取深度信息,保持空间关系 室内设计重绘、风景重绘
Lineart 线稿/草图 精准上色,保持线条 漫画线稿上色
IP-Adapter 参考图片 提取图像风格/人物特征 人物一致性保持(换场景)
Inpaint 图片+蒙版 局部重绘,保留其余区域 修复瑕疵、替换局部元素
💡 ControlNet 安装方法
在 A1111 界面点击 Extensions → Install from URL,输入:
https://github.com/Mikubill/sd-webui-controlnet
安装后重启WebUI,再从 Hugging Face 下载对应的 ControlNet 模型文件(.safetensors)放入 models/ControlNet/ 文件夹。

🎨 LoRA模型:5分钟换风格

LoRA(Low-Rank Adaptation)是SD生态中最重要的微调模型格式,文件小(10-200MB),可在不改变基础模型的情况下快速切换画风、人物、风格。Civitai 目前有超过 15万个 LoRA模型可免费下载。

使用方法

1. 下载 .safetensors 格式的LoRA文件,放入 models/Lora/ 文件夹

2. 在提示词中加入 <lora:模型名称:0.8>(权重建议0.6-1.0)

3. 加入该LoRA的触发词(在下载页面查看)

高质量推荐 LoRA(SD 1.5 / SDXL)

📐 关键参数设置指南

参数推荐范围作用说明
Steps(步数) 20-30 采样次数 步数越多越精细但更慢。超过30步质量提升微乎其微。
CFG Scale 6-8 提示词遵循度 越高越严格遵循提示词但会过饱和。5-7为创意,7-9为精确。
分辨率 512×512 / 1024×1024 输出尺寸 SD 1.5用512,SDXL用1024。超出训练分辨率会产生人脸畸变。
Seed -1(随机) 随机种子 固定seed可复现相同图片,-1每次生成不同结果。
Denoising Strength 0.5-0.75 img2img修改程度 0=不改变原图,1=完全重绘。0.5-0.7保留原图轮廓微调细节。
Hires Fix 开启 高清放大 先生成低分辨率再高清修复,避免直接生成高分辨率的人脸崩坏问题。

🔗 必备资源汇总

模型下载

在线运行(无需本地GPU)

学习资源

❓ 常见问题

Q:Mac能运行Stable Diffusion吗?

可以。Apple Silicon(M1/M2/M3)有专用的优化版本,推荐使用 AUTOMATIC1111 for Apple SiliconDiffusers 库。M1 Pro/Max以上表现较好,M1基础版较慢。Metal GPU加速已经相对成熟,8GB统一内存能运行SD 1.5,16GB以上可以运行SDXL。

Q:生成的图片可以商用吗?

取决于你使用的模型许可证:FLUX.1 Schnell(Apache 2.0,完全商用)、SD 1.5(CreativeML Open RAIL-M,商用需标注)、部分Civitai模型禁止商用(查看各模型License页面)。商业项目建议优先选用 Apache 2.0 许可证模型。

Q:和Midjourney比,Stable Diffusion的优缺点?

维度Stable DiffusionMidjourney
价格完全免费(本地)$10/月起,无免费试用
画质上限8分(高手调教后可媲美)9分(艺术风格最强)
新手友好度低(需要配置环境)高(Discord一条命令出图)
精准控制强(ControlNet精准控制)弱(有限的姿势控制)
内容限制本地无审查严格内容审查
自定义训练支持(DreamBooth/LoRA)不支持

🚀 推荐新手第一周学习路线

Day 1-2
安装 + 基础出图

按照上方安装教程完成环境配置,下载 Realistic Vision V6 模型,用默认参数生成第一张图,熟悉界面布局(正/负向提示词、步数、CFG)。

Day 3-4
提示词深挖

学习权重调整 (词:1.3),收集黄金负向提示词,参考 Civitai 作品的提示词,用相同参数复现并理解每个词的作用。

Day 5-6
LoRA + 换风格

从 Civitai 下载2-3个LoRA,学习触发词用法,尝试同一主体在不同风格LoRA下的出图效果对比。

Day 7
img2img + 高清放大

学习 img2img(对已有图片二次创作),开启 Hires Fix 将512×512放大到1024×1024,体验画质提升。

📌 总结
Stable Diffusion 的学习曲线比 Midjourney 陡,但一旦掌握,你将拥有几乎无限的创作自由度:本地无限生成、完全定制模型、精准控制构图。2025年推荐新手路线:AUTOMATIC1111 + Juggernaut XL + DPM++ 2M Karras + ControlNet Pose,这个组合能覆盖80%的日常需求。

相关文章

🎨 2025最强AI图像生成器对比
Midjourney vs FLUX vs Ideogram vs DALL-E 3
🆓 7个免费Midjourney替代工具
Ideogram、Leonardo AI、Adobe Firefly实测对比
🚀 2025年15个完全免费AI工具
无需信用卡,覆盖绘图、写作、编程全场景