谷歌新公布的Lumiere影片生成模型采用了全新的Diffusion模型技术STUNet,可以让模型认知物件在时间和空间中的定位,一次生成整个影片,使动作更加流畅自然。以前的技术虽然可以逐格生成影片,不过连贯性始终有一定程度的缺陷,让人感到不自然。
Lumiere的影片生成最多可以制作80格,比Stable Video Diffusion 模型的25格要多,而且可以支援文字指令、图片风格指令以及影片编辑指令等,用法相当多元化。目前Lumiere只是研究阶段,未来实际提供相关产品还有一段长时间,特别是在解决滥用风险之前应该不会对外公开◆