一句话生成概念图!建筑灵感图创作机器人来了

猜猜上面是哪几位大师的新作?

扎哈?盖里?福斯特?

……

其实都不是。

上面的“效果图”没有一个是真实渲染的方案,

而是仅用一段文字描述,

通过AI生成的场景概念图。

这一次,小库让你用语言做设计。

最近,多模态学习越来越受学界重视,一句话生成图片的技术成为热门研究方向,国内外兼具速度与质量的各种AI作画工具大火。

Disco Diffusion、Midjourney率先出圈,让大家直观感受到Text-to-Image的创作魅力。

半途杀出的DALL·E 2又凭借强大的文本复现能力和差异化风格,拿到“最强AI画师”称号。

而国内新发布的「文心·一格」,因为支持中文输入及多种画风输出,也开始受到大量关注。

* 左上:Disco Diffusion;右上:Midjourney;左下:DALL·E 2;右下:文心·一格

脑洞大开、精致绚丽的画作在AI的笔下不断涌现,给创作带来更多的可能性。

作为建筑智能领域的探路者,小库在思考:是否可以在此基础上,创造一款面向建筑师群体的AI作画工具,为建筑师提供方案的灵感参考、辅助设计创作?

于是,小库为建筑师打造的AI灵感图创作机器人——「AI创意库」,来了!

从纯抽象文字到图形方案的形成,需要多少时间?「AI创意库」的答案是1分钟。

无论是住宅、办公楼、厂房、音乐厅等不同形态,还是扎哈、阿尔托、福斯特等大师风格,甚至是材质、灯光、配景等各类场景细节——

只要输入一句话需求,「AI创意库」就能在1分钟内快速理解语意,并生成多张效果细腻、贴近概念的意象图,省去建模、渲染、后期的复杂流程。

在这里,无论是想要五彩斑斓的黑,还是流光溢彩的白,「AI创意库」都能满足。

* 左:五彩斑斓的黑; 右:流光溢彩的白

下面我们正式体验一下「AI创意库」的生成效果——

例如输入方案需求:“一座小别墅,被水环绕,前景是绿化,背景是山体,by Zaha Hadid”。

我们可以看到多张满足语意的概念图即刻生成!

综合来看,图面整体造型富有质感,渲染出的材质光影感以及室内空间、玻璃划分、建筑出入口等局部细节也展示出了合理性。

在需求文本中,我们还可以加入更具体的描述和条件设定,比如:“音乐厅,坐落在城市中,纯灰色,混凝土立面,真实街景,现代主义,戏剧化的灯光,by Tadao Ando”。

AI反馈给我们的结果是:

其中颜色、材质、风格、灯光都完美复现了输入的文本,且图片构图规整,景深富有层次,文化类建筑性格的氛围也在配景、灯光的组合下被烘托出来。

# 更多创意可能性

在「AI创意库」中,针对同一个场景和需求,我们还可以大胆假想不同大师风格的应用设计。

例如固定“图书馆”这个形态,我们在其他语句都不一样的情况下,分别输入Norman Foster、Alvar Aalto、Frank Gehry:

* Norman Foster
* Alvar Aalto
* Frank Gehry

Foster的高技派运用、Aalto的现代主义风格、Gehry的解构主义特色,都在概念图中被充分体现出来。

我们也可以想象建筑主体在不同环境场景中的呈现效果。

例如固定“别墅”这个形态,在其他条件都一样的情况下(一座小别墅,被水环绕,前景是绿化,by Zaha Hadid),分别输入在山中、在城市里、在雪山中:

还可以模拟不同立面材质赋予建筑的不同个性。

比如针对“城市里的博物馆,城市街景,靠近一条河,by Bjarke Ingels”,我们分别给出玻璃、金属、混凝土的材质,可以看到生成的结果真实反应出材料的不同特质:

此外,不同颜色、光效、透视角度带来的不同氛围,在「AI创意库」中也能够进行直观感受。

比如针对“城市里的博物馆,城市街景,靠近一条河,纯白色立面,by Bjarke Ingels”,我们分别给出“绿叶日景”、“黄叶夜景”、“日景鸟瞰”:

不同的建筑类型、风格、内容,通过任意组合产生了无尽的可能性。「AI创意库」中,每一个图面都是AI通过模型定制化生成,而不是从已有的图库中搬运。

在这里,制约你的只有想象力。

与一般的生成模型相比,我们对模型的优化重点并不在于对一句话的场景化和图面化,而是更关注建筑和城市空间的真实性,以及建筑师群体的实际需求。

例如,拿同一组参数与Midjourney做对比,可以看到,Midjourney的强项在于更好的氛围和光线,而「AI创意库」则更聚焦建筑本身,包括材质和场景的合理性等。

* 左边为Midjourney由“a museum in a city, street view, near a river, by Zaha Hadid, dramatic lighting”生成,右边为「AI创意库」基于“城市里的博物馆,街景,靠近一条河,戏剧化的光线,by Zaha Hadid”生成

在这背后,小库「AI创意库」又是怎么实现一句话生成图面的呢?

以“扎哈风格的白色博物馆”为例,我们来看看它从文本概念到视觉体现的过程——

首先,文本被输入到训练过的文本编码器中,AI对文本进行语义分析及拆解,理解了“扎哈、白色、博物馆”这几个关键词。

其次,我们使用CLIP(Contrastive Language-Image Pre-training,对比语言-图像预训练模型)将文本编码映射到相应的图像编码,将文本语义与其视觉表达进行连接。

* CLIP模型原理演示

这个模型接受了数亿张图像及其相关标题的训练,建立起概念与图像的关联。

在这里,CLIP的目标不是去预测一张图片的描述,而是学习给定图像与文字的相关程度。

这种对比而非预测的逻辑,使CLIP能够更加精准地建立文本与图像的抽象联系。

而后,图像解码器通过diffusion model随机生成图像,从模糊到清晰,每一步的迭代都会通过CLIP模型去验证相关度,确保最终图像符合该语义信息的视觉表现。

* diffusion model从模糊到清晰的生成过程(1)
* diffusion model从模糊到清晰的生成过程(2)

当然,我们目前的模型还未能囊括所有的风格和建筑特征,部分业态的生成效果也还没有达到精准程度。

针对这些问题我们也将持续对模型进行优化调整,让「AI创意库」能够基于建筑专业语境,更准确、高效地满足建筑师的创作需求。

最后,尽管某些场景下,「AI创意库」能够生成一个看上去比较完整的方案,但这并不意味着AI能够完全“理解”和“设计”建筑。

它的作用在于帮助建筑师捕捉一些转瞬即逝的灵感,并将灵感进行大概的视觉化呈现,使建筑师能够对这个方向进行前期的快速判断与沟通,将时间让给真正的设计。

「AI创意库」即将开放内测,填写下方表单即可提前申请——

邀请各位建筑师积极参与内测,共同帮助「AI创意库」迭代提升,与小库一起打造属于建筑师的AI灵感创作工具!

* 欢迎关注小库官方公众号“小库科技XKool”

    THE END
    喜欢就支持一下吧
    点赞6 分享
    评论 抢沙发
    头像
    欢迎您留下宝贵的见解!
    提交
    头像

    昵称

    取消
    昵称表情代码图片

      暂无评论内容