基于ComfyUI的AI图像生成工作流实验*
一、 实验目的
1.掌握基于 ComfyUI 的 Stable Diffusion(SD 1.5)工作流搭建与图像反向扩散采样机制。
2.理解正向提示词(Prompt)与反向提示词(Negative Prompt)对潜在空间(Latent Space)生成方向的引导作用。
3.深入理解低秩适应模型(LoRA)的串联链路结构,探究不同 LoRA 权重强度(Strength)对图像材质、风格和维度迁移(2D 转向 3D 盲盒质感)的干预阈值。
二、 实验环境与硬件配置
实验平台:千里云算力平台
核心框架:ComfyUI (基于 PyTorch 与 Diffusers 架构)
三、 实验一:基于标准工作流的文生图
- 实验节点拓扑与参数配置
本实验首先在千里云平台搭建了标准的 SD 1.5 图像生成基础工作流。核心节点配置参数如下:
基础大模型(Checkpoint):v1-5-pruned-emaonly-fp16.safetensors
Latent尺寸:512* 512 像素
采样器参数:
种子(Seed):采用固定模式 fixed 以严格控制变量
步数(Steps):20
CFG 引导系数:8.0
采样器/调度器:euler / normal
降噪幅度(Denoise):1.00
文本编码输入:
正向提示词:A beautiful anime girl with pink hair, detailed background, masterpiece, 8k
反向提示词:low quality, blurry, bad anatomy, bad hands, deformed
- 实验结果展示
在固定的随机种子和原生 SD 1.5 大模型的作用下,系统成功解调并生成了标准的扁平二次元画风粉发女孩图像。
组别 A:原生大模型标准生成(无 LoRA 干预):
组别 B:修改 CFG 对比组(测试提示词控制力度)
操作:保持其他所有设置完全不变。
参数修改:将 KSampler 节点中的 cfg 从 8.0 提高到 20.0。
观察画面变化。你会发现画面的线条可能会变得极粗、色彩极度浓烈甚至有些失真。
组别 C:修改 Steps 对比组(测试生成步数/画质影响)
操作:将 cfg 重新改回 8.0。
参数修改:将 KSampler 节点中的 steps 从 20 降低到 5。
操作:点击 Queue Prompt。
保存素材:此时由于步数太低,AI 还没画完就输出了。你会看到一张充满模糊噪点、全是色块的废图。
四、实验二:基于 3D 盲盒风格 LoRA 的潜在空间微调实验
在保证随机种子及提示词完全一致的控制变量前提下,通过调整 Load LoRA 节点中的 strength_model 与 strength_clip 参数,得到了以下两组极具对比性的实验结果:
组别 A:标准融合组(LoRA 权重 = 1.0)
实验现象:当权重设为默认值 1.0 时,图像发生了轻微的维度跨越。原本实验一中扁平的 2D 动漫女孩,在面部五官和粉发大布局保持基本一致的情况下,材质表面呈现出稍微平滑的 PVC 塑料反光与,边缘阴影深度大幅增强,表现出3D渲2D的动漫效果。
组别 B:极端过载组(LoRA 模型强度权重 = 2.0)
实验现象:为了探究该 LoRA 模型的性能阈值,将权重强行拉高至 2.0。此时,3D 特征矩阵在潜空间中表现出过拟合(Overfitting)状态。画面立体感和角色边缘线条发生强烈的重塑与挤压,色彩饱和度高度浓缩,面部和衣服边缘出现局部硬化或艺术过载现象。
五、 实验总结与体会
控制变量在 AI 推理实验中的重要性:本实验通过在千里云平台上固定 Seed 种子,清晰地观察到了在底层随机噪声完全相同的情况下,仅通过改变模型链路和低秩权重,就能将画面从 2D 画风迁移至 3D 风格,充分证实了扩散模型在潜在空间中对特征方向控制的精准性。
LoRA 串联链路的本质:LoRA 并不是一个独立运作的生成器,它必须依附于基础大模型的 MODEL 与 CLIP 信号线之间。通过对交叉注意力机制(Cross-Attention)矩阵的微调,以极低的算力成本(仅约 103MB 的文件体积)撬动了 6GB 级别基础大模型的维度级艺术表现。
工程调参的敏感度法则:实验表明,该 3D LoRA 在 0.0 - 1.0 区间内表现为隐性微调至显性风格迁移,而在权重 > 1.5 后表现为强行干预与过拟合。在实际的 AIGC 工业生产中,推荐将该模型权重控制在 0.8 - 1.1 之间,以获得 3D 质感与大模型原生画风最自然的融合度。