ControlNet 1.1 包括所有以前的模型,具有改进的稳健性和提高生图质量,并添加了几个新模型。总共包括 14 个模型。
Depth
Depth map是表示对象在 3D 空间中的距离的 2D 图像。通常表示为灰度图像。图像中的明亮区域表示近距离,暗区域表示远距离。
1.1 修复了以下问题:
由于重复的灰度,以前的模型更可能产生灰度人类图像某些图像质量差、非常模糊或有明显的 JPEG 伪像由于数据处理脚本的错误,部分图片显示配对提示错误。Normal
法线贴图是一种纹理贴图,用于模拟精细的表面细节和不均匀度。法线贴图是表示表面法线向量的 RGB 图像,每个像素的颜色表示该点的法线方向。
Normal 1.0 中使用的 normal-from-midas 方法既不合理也不在物理上是正确的,并且在许多图像上效果不佳,但是 Normal 1.1 使用相对正确的预处理器协议(NYU -V2 的可视化方法)训练来估计法线贴图,这使得它更合理。换句话说,只要颜色正确(蓝色正面、红色左侧、绿色顶部),Normal 1.1 就可以从渲染引擎解释实际的法线贴图。
Canny
Canny是图像处理中常用的边缘检测算法之一,用于检测图像中物体的边界和形状。
与 Depth 一样,1.1 修复了以下问题:
由于重复的灰度,以前的模型更可能产生灰度人类图像某些图像质量差、非常模糊或有明显的 JPEG 伪像由于数据处理脚本的错误,部分图片显示配对提示错误。Canny 模型是ControlNet 中最常用和重要的模型之一,在 8 台 Nvidia A100 80G 机器上训练,batch size 8 x 32 = 256 3 天,72 x 30 = 2160 USD。因此,Canny 1.1 比 Canny 1.0 更健壮,视觉质量略好。
MLSD
MLSD(Multi-Scale Line Descriptor)是一种高效检测和描述图像中的直线和线段的算法。MLSD 旨在检测多个尺度的线段,其特点是即使图像中的线段具有不同的长度和粗细,也能进行稳健的检测。
在 1.1 中,以下问题以及 Depth 和 Canny 已得到修复。
由于重复的灰度,以前的模型更可能产生灰度人类图像某些图像质量差、非常模糊或有明显的 JPEG 伪像由于数据处理脚本的错误,部分图片显示配对提示错误。ControlNet 1.1 Scribble
您可以使用Scribbles(如简单的手绘涂鸦)控制 Stable Diffusion 。
1.1 修复了以下问题以及 Depth、Canny 等。
由于重复的灰度,以前的模型更可能产生灰度人类图像某些图像质量差、非常模糊或有明显的 JPEG 伪像由于数据处理脚本的错误,部分图片显示配对提示错误。Tile
越来越多的人开始考虑如何将图像制作得非常大(4k 和 8k)。问题是在 Stable Diffusion 中,提示总是会影响每个图块。例如,如果提示是“一个漂亮的女孩”,图像被分成 4 × 4 = 16 个块,每个块扩散,则有 16 个“16 个漂亮的女孩”而不是“一个漂亮的女孩”。
ControlNet Tile 就是解决这个问题的模型。对于给定的图块,您可以识别图块内部的内容并增加其感知语义的影响,并在内容不匹配时减少全局提示的影响。
目前Tile 正在ControlNet 1.1 作为实验功能进行逐步完善中。
暂无评论内容