FastSD CPU 实测:没有显卡也能跑 Stable Diffusion,速度到底能不能忍?
FastSD CPU 是一个专为 CPU 和 AI PC 优化的 Stable Diffusion 推理框架。我在一台没有独显的笔记本上试了几天,聊聊它能不能真的替代 GPU 出图。
广告
Stable Diffusion 最让人劝退的门槛就是显卡。不是每个人都有 RTX 4090,很多笔记本甚至连独显都没有。FastSD CPU 这个项目就是冲着这个痛点来的——让 CPU 也能流畅跑 SD 出图。GitHub 上 2000 多 star,我找来一台纯核显的轻薄本试了几天。
它凭什么能在 CPU 上跑得快
FastSD CPU 的核心优化来自两个技术:
OpenVINO 加速:Intel 推出的深度学习推理框架,专门针对 Intel CPU 做了指令级优化。它能把模型转换成 IR(Intermediate Representation)格式,利用 AVX-512、AMX 等指令集压榨 CPU 算力。
LCM(Latent Consistency Models):一种加速扩散模型采样过程的算法。传统 SD 需要 20-50 步采样才能出一张图,LCM 把步骤压缩到 4-8 步,质量损失可控。步数少了,CPU 推理时间自然大幅下降。
这两个技术叠加,让 CPU 上的出图时间从”等一杯咖啡”变成了”等一口水”。
安装过程
项目支持多种运行方式:命令行、Web UI、桌面 GUI。我试了 Web UI 版本:
# 克隆仓库
git clone https://github.com/rupeshs/fastsdcpu.git
cd fastsdcpu
# 安装依赖(推荐用 conda)
conda create -n fastsd python=3.10
conda activate fastsd
pip install -r requirements.txt
第一次运行会自动下载模型和 OpenVINO 优化后的权重:
python src/app.py --mode webui
浏览器打开 http://localhost:7860 就能看到界面。整体安装 10 分钟左右,比配 CUDA 环境简单多了。
实际出图体验
测试设备:ThinkPad X1 Carbon,i7-1360P,核显,32GB 内存。
SD 1.5 基础模型:512x512 分辨率,LCM 采样 4 步,出一张图大概 8-12 秒。这个速度对于 CPU 来说相当可以了,比我预期的 30 秒以上快很多。
SDXL Turbo:这是作者重点优化的模型,专门为快速推理设计。同样的设备,512x512 出图能做到 3-5 秒一张。虽然画质不如完整版 SDXL,但用于快速草图、概念验证完全够用。
Flux 支持:最近更新加入了对 Flux 模型的支持,但 Flux 模型本身很大,CPU 推理比较吃力。512x512 要 40-60 秒,属于”能跑但不实用”的范畴。
内存占用:跑 SD 1.5 时峰值内存大概 6-8GB,SDXL 能到 12-16GB。32GB 内存的机器毫无压力,但 16GB 以下的机器可能会吃力。
优点很突出
真正零门槛。 不需要 N 卡、不需要 CUDA、不需要折腾驱动。只要有台近几年的 Intel CPU,就能跑。
AI PC 友好。 如果你的笔记本/台式机贴了个”Intel AI PC”的标,里面有 NPU 或者较新的核显,FastSD CPU 能进一步加速。虽然主要算力还是 CPU,但某些环节能 offload 到核显/NPU。
多模式支持。 命令行适合批量生成脚本,Web UI 适合随手玩,桌面 GUI 适合不喜欢浏览器的用户。三种模式功能基本一致。
LCM + OpenVINO 的组合拳确实有效。 单独用 LCM 或者单独用 OpenVINO 都有各自的项目,FastSD CPU 把两者整合好了,省去了自己拼凑的麻烦。
但问题也很现实
画质有妥协。 4-8 步采样的 LCM 模式,细节丰富度和色彩层次明显不如 20 步以上的传统采样。出的图”乍一看还行”,放大看就有涂抹感了。
分辨率先天受限。 CPU 上跑 1024x1024 非常慢,基本上只能用于 512x512 的”小图”。想生成壁纸级别的高分辨率图,还是得找 GPU。
ControlNet 等高级功能缺失。 没有 ControlNet、LoRA 训练、图生图进阶功能。它定位就是”快速出草图”,不是完整替代 ComfyUI/WebUI。
AMD/ARM 平台支持弱。 主要针对 Intel CPU + OpenVINO 优化,AMD Ryzen 能跑但加速效果差不少。ARM 架构(比如苹果 M 系列)基本没优化。
适合谁用
如果你只有一台没有独显的轻薄本/办公机,但偶尔需要生成一些概念图、头像、或者做 AI 绘画的初步探索,FastSD CPU 是目前最省事的方案。它比在线工具(Midjourney 等)更私密、更可控,又比买显卡省钱得多。
但如果你是认真的 AI 绘画玩家、需要 ControlNet 精确控制构图、或者要出高分辨率商用图,它只是个入门玩具,最终还是要上 GPU。
总结
FastSD CPU 在”CPU 跑 Stable Diffusion”这个小众赛道里做到了头部水平。它不会让你忘记显卡的存在,但确实让没有显卡的人也能体验到本地 AI 出图的乐趣。2000 star 的成绩对这个细分领域来说已经很亮眼了。作为入门和轻量使用,它 delivers。
GitHub: https://github.com/rupeshs/fastsdcpu
关于作者
柳钉鱼,全栈开发者,GitHub 重度用户。过去 3 年 Star 了 900+ 仓库,这里只写我真正用过或深度调研过的工具。
📧 发现好工具想推荐?发邮件到 [email protected]
广告