用 Vision Transformer 进行图像分类
Transformer 问世后被广泛地用在 NLP 的各种任务中,但是却很少出现在计算机视觉领域中。目前计算机视觉主流的模型依然是 CNN,各种 attention 操作也是在 CNN 结构上进行。本文介绍 Vision Tra...
DiffusionDet:基于扩散模型的目标检测框架
扩散模型在生成任务上非常成功,自然就想到将其扩展到其他任务上,果然香港大学的罗平团队就出了这个DiffusionDet。后续是不是可以将其扩展到各种任务上。Denoising Diffusion is all you need...
中科院最新综述!3D Gaussian Splatting
作者:小柠檬 | 来源:3DCV添加微信:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群 3DGS综述:首篇综述 :A Survey on 3D Gaussian Splatting第二篇综述 :相对比较全面...
六、Vision Transformer(ViT)
辰流看完Transformer之后,梦里都是Attention。 谢谢你,nlp。 谢谢你,attention。 谢谢你,transformer。 感谢多了,或许就要流泪了。 俗话说趁热打铁。第五章中的Transformer虽用于nlp领域,...
Scalable Diffusion Models with Transformers(DiTs)论文阅读 — 文生视频Sora模型基础结构DiT
文章地址:Scalable Diffusion Models with Transformers 简介 文章提出使用Transformers替换扩散模型中U-Net主干网络,分析发现,这种Diffusion Transformers(DiTs)不仅速度更快(更高的Gflo...
3D Gaussian Splatting是什么以及为什么这么火
0. 简介 其实3D Gaussian Splatting和MVS,SFM,Nerf这类比较类似,但是我们发现辐射场一类场景表示方法已经在新视角渲染任务上得到了革命性的进展,但是在高分辨率图片上由于需要使用神经网络...