ControlNet 1.1 nightly版本发布,让图像生成更可控

ControlNet 1.1 包括所有以前的模型,具有改进的稳健性和提高生图质量,并添加了几个新模型。总共包括 14 个模型。

Depth

Depth map是表示对象在 3D 空间中的距离的 2D 图像。通常表示为灰度图像。图像中的明亮区域表示近距离,暗区域表示远距离。

1.1 修复了以下问题:

由于重复的灰度,以前的模型更可能产生灰度人类图像某些图像质量差、非常模糊或有明显的 JPEG 伪像由于数据处理脚本的错误,部分图片显示配对提示错误。

Normal

法线贴图是一种纹理贴图,用于模拟精细的表面细节和不均匀度。法线贴图是表示表面法线向量的 RGB 图像,每个像素的颜色表示该点的法线方向。

Normal 1.0 中使用的 normal-from-midas 方法既不合理也不在物理上是正确的,并且在许多图像上效果不佳,但是 Normal 1.1 使用相对正确的预处理器协议(NYU -V2 的可视化方法)训练来估计法线贴图,这使得它更合理。换句话说,只要颜色正确(蓝色正面、红色左侧、绿色顶部),Normal 1.1 就可以从渲染引擎解释实际的法线贴图。

Canny

Canny是图像处理中常用的边缘检测算法之一,用于检测图像中物体的边界和形状。

与 Depth 一样,1.1 修复了以下问题:

由于重复的灰度,以前的模型更可能产生灰度人类图像某些图像质量差、非常模糊或有明显的 JPEG 伪像由于数据处理脚本的错误,部分图片显示配对提示错误。

Canny 模型是ControlNet 中最常用和重要的模型之一,在 8 台 Nvidia A100 80G 机器上训练,batch size 8 x 32 = 256 3 天,72 x 30 = 2160 USD。因此,Canny 1.1 比 Canny 1.0 更健壮,视觉质量略好。

MLSD

MLSD(Multi-Scale Line Descriptor)是一种高效检测和描述图像中的直线和线段的算法。MLSD 旨在检测多个尺度的线段,其特点是即使图像中的线段具有不同的长度和粗细,也能进行稳健的检测。

在 1.1 中,以下问题以及 Depth 和 Canny 已得到修复。

由于重复的灰度,以前的模型更可能产生灰度人类图像某些图像质量差、非常模糊或有明显的 JPEG 伪像由于数据处理脚本的错误,部分图片显示配对提示错误。

ControlNet 1.1 Scribble

您可以使用Scribbles(如简单的手绘涂鸦)控制 Stable Diffusion 。

1.1 修复了以下问题以及 Depth、Canny 等。

由于重复的灰度,以前的模型更可能产生灰度人类图像某些图像质量差、非常模糊或有明显的 JPEG 伪像由于数据处理脚本的错误,部分图片显示配对提示错误。

Tile

越来越多的人开始考虑如何将图像制作得非常大(4k 和 8k)。问题是在 Stable Diffusion 中,提示总是会影响每个图块。例如,如果提示是“一个漂亮的女孩”,图像被分成 4 × 4 = 16 个块,每个块扩散,则有 16 个“16 个漂亮的女孩”而不是“一个漂亮的女孩”。

ControlNet Tile 就是解决这个问题的模型。对于给定的图块,您可以识别图块内部的内容并增加其感知语义的影响,并在内容不匹配时减少全局提示的影响。

目前Tile 正在ControlNet 1.1 作为实验功能进行逐步完善中。

    THE END
    喜欢就支持一下吧
    点赞11 分享
    评论 抢沙发
    头像
    欢迎您留下宝贵的见解!
    提交
    头像

    昵称

    取消
    昵称表情代码图片

      暂无评论内容