【2022.10】Stable Diffusion预训练模型 把玩随感

前言

这是一种可以根据文本或附加图像再生成图像的模型。

目前商用、准商用的训练后的模型服务已经越来越多,目前已经比较成熟的一个服务是:

https://novelai.net/ 中的基于二次元数据训练的模型

这个模型也有了泄露版本,有兴趣有显卡的可以自己把玩。

一些试用感受

如果你并没有对于图像内容的详细期望,那么仅凭少量文字描述(严格来说是tag)就能产生出相当不错的图像,作为新创意和灵感来源是非常不错的。但当你想精确指定、修改的时候,就经常不合人意。100%正确的生成还是不行的,典型的问题是:人物面部五官生成有问题人物表情都较为单一手指等生成有问题人物肢体结构动作有问题等等。面容和手指的问题大概是训练时候用的图像512*512分辨率不够高+模型本身问题导致的。肢体的正确生成这个问题比较难克服,我认为可能的途径:先生成三维空间的人物骨架和其他结构的草图(3D位置)基于该框架信息进行图像生成。训练集来源:对于现有平面图,先做人物动作和空间结构的识别,然后再将其加入模型中当图像有多个主体时,出现问题的概率明显增加。多个需要协调的对象出现不协调,例如2只眼睛生成不一致。

一种不错的使用方式是:1根据一个主题,调试一下prompt,2根据这个prompt大量产出一批图,然后人工筛选踢掉比较差的60%,剩下的图可以作为多样性的图来用。

效果示例

我这里尽量选了一些能体现效果又能体现问题的样例,这并不代表实际废片的概率。

问题:缺一条腿,手指生成有问题
问题:眼睛、眼镜生成有问题,枪造型奇怪
问题:多个人物时容易雷同不好分别指定,人脸生成问题,肢体生成有问题
问题:手指生成,手臂不自然。本图和上一个是相似的prompt的不同随机结果
问题:耳朵,手指
眼睛略有不对称,手生成有问题
眼睛和五官生成有问题,手臂生成有问题
手指生成问题,手的方向问题
似乎还好
手的生成略不自然
火车和背景的画风不一致

本文成文于2022.10.10

    THE END
    喜欢就支持一下吧
    点赞7 分享
    评论 抢沙发
    头像
    欢迎您留下宝贵的见解!
    提交
    头像

    昵称

    取消
    昵称表情代码图片

      暂无评论内容