ControlNet 1.1 新版发布有些日子了,一直也没来得及发文,今天抽空来做一下。
本文实战在Automatic1111 (A1111)/ Vlad Diffusion (Vlad)界面下通用。
更新/安装
Vlad/A1111已安装ControlNet:
Extensions > Installed > Check for updates > Apply & restart UI (建议重启程序)新安装:
Extensions > Available > Load from: >找到sd-webui-controlnet > Install > 等画面变亮> Installed > Apply & restart UI (建议重启程序)注意!
虽然安装会一并下载Preprocessor,但ControlNet的model通常需要自己手动下载。这次1.1更新因为旧版的model已不适用,可全部移除后前往此页面下载:
huggingface.co/lllyasviel/ControlNet-v1-1/tree/main总共有14个model,要下载的是扩展名”.pth”的文件,下载后放到extensions或extensions-builtin文件夹中的”sd-webui-controlnet\models”。
“.yaml”的部分应该已在该文件夹内,如果没有才一并下载。另外,需要移除的旧版model也是在这个文件夹中。需要注意的是.pth、.yaml是两个文件一组的,所以请确认下载的.pth都有对应的.yaml。
这次实战使用的model是:
Tile Resample – 高清放大、增加细节
我在AI绘图|Vlad(Stable Diffusion)实战高清放大插件MultiDiffusion一文中提到,Noise Inversion可在Image2Image放大运算时相当程度保留原图构图。ControlNet的Tile Resample也有同样的功能,而且更为忠实。
另外,ControlNet的model可以搭配MultiDiffusion的Tiled VAE使用来减少VRAM用量,但Tiled Diffusion部分会有冲突,往往无法一起使用。
首先用Text2Image生成基础原图:
512 x 784 原图
model: chilloutmix
vae: blessed2.vae.pt
+
complex 3d render ultra detailed of a beautiful female android, cyborg, sitting, robotic parts, 150 mm, beautiful studio soft light, rim light, dramatic lighting, neon lights, vibrant details, luxurious cyberpunk, [<lora:JapaneseDollLikeness_v15:0.5>], lace, hyper realistic, anatomical, facial muscles, silver hair, white hair, hair floating in air, (robotic eyes), cable electric wires, microchip, elegant, cyberpunk background, dark background, beautiful background, octane render, HR Giger style, 8k, best quality, masterpiece, illustration, extremely delicate and beautiful, extremely detailed , (realistic, photo-realistic:1.37), masterpiece, best quality, absurdres, extremely detailed,
–
bad-hands-5, ng_deepnegative_v1_75t.pt, (low quality, worst quality:1.4), (monochrome:1.1), (greyscale), watermark, text, blurry, jpeg artifacts, cropped, normal quality, signature, username, artist name, cartoon, canvas frame, lowres, (disfigured), (bad art), (deformed), (extra limbs), (b&w), weird colors, (duplicate), (morbid), (mutilated), mutated hands, (poorly drawn hands), (poorly drawn face), (mutation), (ugly), (bad proportions), cloned face, out of frame, gross proportions, (malformed limbs), (missing arms), (missing legs), (extra arms), (extra legs), fused fingers, (long neck), lowres, (grayscale), (skin spots), acnes, skin blemishes, (age spot), (nsfw)
Sampling method: DPM++ SDE Karras
Sampling steps: 33
Width: 512
Height: 784
CFG Scale: 5
Clip Skip: 1
Seed: 2832472998
*<lora:JapaneseDollLikeness_v15:0.5>
*bad-hands-5
*ng_deepnegative_v1_75
接着我将上图传到Image2Image,使用原本的+/-Prompts和设置,只改了下图红框中的设置,将图放大一倍为1024 x 1568:
Image2Image
接下来的四张图全都使用了同样的设置,差别是:
1张无使用ControlNet, 3张使用了ControlNet的Tile Resample,但使用了三种”Down Sampling Rate”。下图是四图同框的比较图:
四图比较
与原图对照,乍看一下可能觉得差别不大,但和原图对比过的话会发现,有使用Tile Resample的三张的脸看起来和原图像是同一个人,没有使用的则看起来像是不同的人,尤其「眼形」的部分特别明显。
另外像是下巴下方黑底领口的细部纹路,也是只有使用Tile Resample的三张保留了下来。另外一些护具的细部尖尖角角的轮廓,也只有Tile Resample的图保留了下来。
并且Tile Resample保留相似度的同时仍增添了细节,例如肩膀护具的网孔纹理,在保留其特征的前提下解析度和细节都获得了提升:
无Tile Resample,护具的网孔纹理和原图有很多不同之处,例如原本没有的皱褶
Down Sampling Rate 1 – 很忠实地保留了原图网孔纹理
Down Sampling Rate 4.5- 忠实地保留了原图网孔纹理,但开始有点不同,例如反光形状
Down Sampling Rate 8 – 相较无Tile Resmaple的图仍更忠实地保留原图网孔纹理,但明显增加了不同之处
简而言之,Down Sampling Rate数值越大,细节的自由度越高,原因在于Down Sampling Rate数值越大,ControlNet model运算时建立的原图参考图就越模糊:
运算参考图的模糊程度差异
使用时的ControlNet设置参考如下:
暂无评论内容