Video generation models as world simulators
参考链接
摘要
我们在可变持续时间、分辨率和宽高比的视频和图像上联合训练文本条件扩散模型。我们利用对视频和图像潜在代码的时空补丁进行操作的Transformer架构。我们最大的模型 Sora 能够生成一分钟的高保真视频。我们的结果表明,扩展视频生成模型是构建物理世界通用模拟器的一条有前途的途径。
本技术报告重点关注:
- (1)我们将所有类型的视觉数据转化为统一表示的方法,从而能够大规模训练生成模型
- (2)对 Sora 的能力和局限性进行定性评估。
Turning visual data into patches
LLMs 有 text tokens,而 Sora 有visual patches.
在较高的层次上,我们首先将视频压缩到低维潜在空间中,然后将表示分解为时空patcher,从而将视频转换为patch。
Video compression network
该网络将原始视频作为输入,并输出在时间和空间上压缩的潜在表示。 Sora 在这个压缩的潜在空间中接受训练并随后生成视频
Spacetime latent patches
给定一个压缩的输入视频,我们提取一系列时空patches,充当transformer tkoens。该方案也适用于图像,因为图像只是具有单帧的视频。我们基于patches的表示使 Sora 能够对不同分辨率、持续时间和长宽比的视频和图像进行训练。在推理时,我们可以通过在适当大小的网格中排列随机初始化的patches来控制生成视频的大小。
Scaling transformers for video generation
Sora 是扩散模型;给定输入噪声patches(以及文本提示等调节信息),它被训练来预测原始的“干净”patches。
可变的持续时间、分辨率、宽高比
- 采样灵活性:Sora 可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的所有视频。
- 改进的框架和构图:以原始长宽比对视频进行训练可以改善构图和取景
Language understanding
训练文本到视频生成系统需要大量带有相应文本字幕的视频。我们将 DALL·E 3 中引入的重新字幕技术应用于视频。我们首先训练一个高度描述性的字幕生成器模型,然后使用它为训练集中的所有视频生成文本字幕。我们发现,对高度描述性视频字幕进行训练可以提高文本保真度以及视频的整体质量。
简略看了看,剩下的不写了…