簡単なテキストから写実的な動画を生成する拡散モデル「W.A.L.T」が登場

2023-12-15

スタンフォード大学やGoogleの研究チームが、テキストから写実的な動画を生成する拡散モデルである「 W.A.L.T 」を発表しました。実際に「W.A.L.T」を使用して生成した動画も多数公開されています。 W.A.L.T.pdf https://walt-video-diffusion.github.io/assets/W.A.L.T.pdf Photorealistic Video Generation with Diffusion Models https://walt-video-diffusion.github.io/ 「W.A.L.T」は、Googleなどが発表した深層学習モデルの Transformer をベースにした動画生成AIです。研究チームのアグリム・グプタ氏は、W.A.L.Tの仕組みについてX(旧Twitter)へのポストで触れています。 We introduce W.A.L.T, a diffusion model for photorealistic video generation. Our model is a transformer trained on image and video generation in a shared latent space. ???????? pic.twitter.com/uJKMtMsumv — Agrim Gupta (@agrimgupta92) […]

Click here to view original web page at gigazine.net