一句话生成概念图！建筑灵感图创作机器人来了-卡咪卡咪哈-一个博客

一句话生成概念图！建筑灵感图创作机器人来了

1年前发布

0586

猜猜上面是哪几位大师的新作？

扎哈？盖里？福斯特？

……

其实都不是。

上面的“效果图”没有一个是真实渲染的方案，

而是仅用一段文字描述，

通过AI生成的场景概念图。

这一次，小库让你用语言做设计。

最近，多模态学习越来越受学界重视，一句话生成图片的技术成为热门研究方向，国内外兼具速度与质量的各种AI作画工具大火。

Disco Diffusion、Midjourney率先出圈，让大家直观感受到Text-to-Image的创作魅力。

半途杀出的DALL·E 2又凭借强大的文本复现能力和差异化风格，拿到“最强AI画师”称号。

而国内新发布的「文心·一格」，因为支持中文输入及多种画风输出，也开始受到大量关注。

* 左上：Disco Diffusion；右上：Midjourney；左下：DALL·E 2；右下：文心·一格

脑洞大开、精致绚丽的画作在AI的笔下不断涌现，给创作带来更多的可能性。

作为建筑智能领域的探路者，小库在思考：是否可以在此基础上，创造一款面向建筑师群体的AI作画工具，为建筑师提供方案的灵感参考、辅助设计创作？

于是，小库为建筑师打造的AI灵感图创作机器人——「AI创意库」，来了！

从纯抽象文字到图形方案的形成，需要多少时间？「AI创意库」的答案是1分钟。

无论是住宅、办公楼、厂房、音乐厅等不同形态，还是扎哈、阿尔托、福斯特等大师风格，甚至是材质、灯光、配景等各类场景细节——

只要输入一句话需求，「AI创意库」就能在1分钟内快速理解语意，并生成多张效果细腻、贴近概念的意象图，省去建模、渲染、后期的复杂流程。

在这里，无论是想要五彩斑斓的黑，还是流光溢彩的白，「AI创意库」都能满足。

* 左：五彩斑斓的黑；右：流光溢彩的白

下面我们正式体验一下「AI创意库」的生成效果——

例如输入方案需求：“一座小别墅，被水环绕，前景是绿化，背景是山体，by Zaha Hadid”。

我们可以看到多张满足语意的概念图即刻生成！

综合来看，图面整体造型富有质感，渲染出的材质光影感以及室内空间、玻璃划分、建筑出入口等局部细节也展示出了合理性。

在需求文本中，我们还可以加入更具体的描述和条件设定，比如：“音乐厅，坐落在城市中，纯灰色，混凝土立面，真实街景，现代主义，戏剧化的灯光，by Tadao Ando”。

AI反馈给我们的结果是：

其中颜色、材质、风格、灯光都完美复现了输入的文本，且图片构图规整，景深富有层次，文化类建筑性格的氛围也在配景、灯光的组合下被烘托出来。

# 更多创意可能性

在「AI创意库」中，针对同一个场景和需求，我们还可以大胆假想不同大师风格的应用设计。

例如固定“图书馆”这个形态，我们在其他语句都不一样的情况下，分别输入Norman Foster、Alvar Aalto、Frank Gehry：

* Norman Foster

* Alvar Aalto

* Frank Gehry

Foster的高技派运用、Aalto的现代主义风格、Gehry的解构主义特色，都在概念图中被充分体现出来。

我们也可以想象建筑主体在不同环境场景中的呈现效果。

例如固定“别墅”这个形态，在其他条件都一样的情况下（一座小别墅，被水环绕，前景是绿化，by Zaha Hadid），分别输入在山中、在城市里、在雪山中：

还可以模拟不同立面材质赋予建筑的不同个性。

比如针对“城市里的博物馆，城市街景，靠近一条河，by Bjarke Ingels”，我们分别给出玻璃、金属、混凝土的材质，可以看到生成的结果真实反应出材料的不同特质：

此外，不同颜色、光效、透视角度带来的不同氛围，在「AI创意库」中也能够进行直观感受。

比如针对“城市里的博物馆，城市街景，靠近一条河，纯白色立面，by Bjarke Ingels”，我们分别给出“绿叶日景”、“黄叶夜景”、“日景鸟瞰”：

不同的建筑类型、风格、内容，通过任意组合产生了无尽的可能性。「AI创意库」中，每一个图面都是AI通过模型定制化生成，而不是从已有的图库中搬运。

在这里，制约你的只有想象力。

与一般的生成模型相比，我们对模型的优化重点并不在于对一句话的场景化和图面化，而是更关注建筑和城市空间的真实性，以及建筑师群体的实际需求。

例如，拿同一组参数与Midjourney做对比，可以看到，Midjourney的强项在于更好的氛围和光线，而「AI创意库」则更聚焦建筑本身，包括材质和场景的合理性等。

* 左边为Midjourney由“a museum in a city, street view, near a river, by Zaha Hadid, dramatic lighting”生成，右边为「AI创意库」基于“城市里的博物馆，街景，靠近一条河，戏剧化的光线，by Zaha Hadid”生成

在这背后，小库「AI创意库」又是怎么实现一句话生成图面的呢？

以“扎哈风格的白色博物馆”为例，我们来看看它从文本概念到视觉体现的过程——

首先，文本被输入到训练过的文本编码器中，AI对文本进行语义分析及拆解，理解了“扎哈、白色、博物馆”这几个关键词。

其次，我们使用CLIP（Contrastive Language-Image Pre-training，对比语言-图像预训练模型）将文本编码映射到相应的图像编码，将文本语义与其视觉表达进行连接。

* CLIP模型原理演示

这个模型接受了数亿张图像及其相关标题的训练，建立起概念与图像的关联。

在这里，CLIP的目标不是去预测一张图片的描述，而是学习给定图像与文字的相关程度。

这种对比而非预测的逻辑，使CLIP能够更加精准地建立文本与图像的抽象联系。

而后，图像解码器通过diffusion model随机生成图像，从模糊到清晰，每一步的迭代都会通过CLIP模型去验证相关度，确保最终图像符合该语义信息的视觉表现。

* diffusion model从模糊到清晰的生成过程（1）

* diffusion model从模糊到清晰的生成过程（2）

当然，我们目前的模型还未能囊括所有的风格和建筑特征，部分业态的生成效果也还没有达到精准程度。

针对这些问题我们也将持续对模型进行优化调整，让「AI创意库」能够基于建筑专业语境，更准确、高效地满足建筑师的创作需求。

最后，尽管某些场景下，「AI创意库」能够生成一个看上去比较完整的方案，但这并不意味着AI能够完全“理解”和“设计”建筑。

它的作用在于帮助建筑师捕捉一些转瞬即逝的灵感，并将灵感进行大概的视觉化呈现，使建筑师能够对这个方向进行前期的快速判断与沟通，将时间让给真正的设计。

「AI创意库」即将开放内测，填写下方表单即可提前申请——

邀请各位建筑师积极参与内测，共同帮助「AI创意库」迭代提升，与小库一起打造属于建筑师的AI灵感创作工具！

* 欢迎关注小库官方公众号“小库科技XKool”

THE END

喜欢就支持一下吧

相关推荐

评论抢沙发

欢迎您留下宝贵的见解！

提交

暂无评论内容