衡宇 发自 凹非寺
量子位 | 公众号 QbitAI注意看,你面前是一堵平平无奇的墙。
现在,你可以按照自己的意愿,让它直接凭空长出点东西来。
比如……一只小猫咪?
没错,Stable Diffusion又可以搞新花活了!
这一次的重点在于,Stable Diffusion的触手扩展到现实世界——和WebAR相结合。
作者是个软件工程师小哥Stijn Spanhove,经常在推特主页发些关于WebAR或XR的视频。
目前,这条凭空长猫的视频热度还挺不错。
新世界的大门打开,有网友对AR+SD的兴趣更浓了:
还有人说:
这简直就是《反恐精英》一个酷毙了的新版本啊!一起来看看这个有点酷的新东西吧~
SD与AR一起玩
首先,拿起手机,然后随意选择一堵墙,透过屏幕界面锁定它:
选定一块心仪区域,把它圈起来,全部涂黑。
输入提示词:
一只可可爱爱的小猫咪,涂鸦风格,数字艺术接着点击输入框下方的Diffusion按钮,直接快进到见证奇迹的时刻。
此时,无论从哪个角度看,墙上都有一幅《喵娜丽莎》在微笑地看着你了。
这个视频,是小哥利用火到没边、门槛又低的Stable Diffusion,结合WebAR,搞出的第一个实验产品。
他在评论区和围观网友讨论了具体的工作流程。
第一步,冻结帧,把它作为生成图像的表面纹理,并让它拥有世界定位和设备跟踪相机。
第二步,向服务器发送API请求,并附上冻结帧(图像)和文本提示(Stable Diffusion)。
整个工作中,将Stable Diffusion嵌入现实世界是利用AR完成的。
关于绘制纹理,小哥则使用了Raycast(一款完全可扩展的快捷启动器)。
整个过程简单利落,引发了网友新的思考。
目前有很多有趣的NPU(嵌入式神经网络处理器)硬件,手机的共享内存也超过12GB。
在这个前提下,如果Stable Diffusion和AR一起玩这个工作能在本地运行,并且能够快到在类似的请求时间内,完成整个512×512图像生成,并在更快的AI上运行升级,一定非常有趣。
小哥自己也说,这个工作只是初尝试,一切只是Stable Diffusion和AR结合的开始。
但大多数网友觉得这已经是个很有趣的工作了,甚至想在上面“乱涂乱画”好几个小时。
AIGC打破次元壁
Stable Diffusion的风吹进现实世界,绝不是小哥一个人的想法。
具体的操作流程,基本都是在原基础上用AR加持。
就在这几天,另一位小哥用Stable Diffusion,搞了个视频透视式光学透视式眼镜。
(搁这儿叠buff呢?)
具体来说,就是小哥用Stable Diffusion做了个虚拟的AR眼镜,然后在手机屏幕上透过眼镜镜片,实现AR效果。
生成的虚拟AR眼睛不仅有电量提示,透过它看现实,能呈现西部世界、丛林、异形等多种画面风格。
此外,还有人结合Meta旗下的AR创作工具Spark AR,利用Stable Diffusion,假装自己手握了一个方块小卡片。
就是上面还能播放动画的那种。
为了达到逼真效果,作者还在卡片表面叠了一个反光图层,让卡片呈现的光泽“像玻璃杯一样”。
不过,这次的Stable Diffusion产出的图像不是实时生成,而是事先录制的,因为当下的Spark AR版本还不支持AI和ML。
“Very Nice,通过Stable Diffusion,AI和AR再一次紧密相连了。”
不管怎么说,Stable Diffusion这么火,不仅靠的是跑出来的惊人结果,触及文本生成图像以外的领域时,实力也很强劲呀~
参考链接:
[1]https://twitter.com/stspanho/status/1581707753747537920[2]https://twitter.com/ThoseSixFaces/status/1581606079380672512[3]https://twitter.com/sergeyglkn/status/1580167837770870784—完—
@量子位 · 追踪AI技术和产品新动态
深有感触的朋友,欢迎赞同、关注、分享三连վᴗ ի ❤
暂无评论内容