动效h5网站,wordpress mysql 搭建,站酷网站,wordpress主题中的文件大家好#xff0c;这里是好评笔记#xff0c;公主号#xff1a;Goodnote#xff0c;专栏文章私信限时Free。本文详细解读多模态论文TECO#xff08;Temporally Consistent Transformer#xff09;#xff0c;即时间一致变换器#xff0c;是一种用于视频生成的创新模型这里是好评笔记公主号Goodnote专栏文章私信限时Free。本文详细解读多模态论文TECOTemporally Consistent Transformer即时间一致变换器是一种用于视频生成的创新模型旨在解决现有视频生成算法在处理长时依赖关系和时间一致性方面的不足。 文章目录 论文摘要1. 引言2. 预备知识2.1 VQ-GAN2.2 MaskGit 3. TECO3.1 架构概述编码器时间变换器解码器空间MaskGit训练目标 3.2 DropLoss 4. 实验4.1 数据集4.2 基线模型4.3 实验设置训练评估4.4 基准测试结果4.5 消融实验4.6 进一步见解 5. 讨论 热门专栏机器学习深度学习 论文
论文名Temporally Consistent Transformers for Video Generation 论文链接https://arxiv.org/pdf/2210.02396 项目地址https://wilson1yan.github.io/teco
摘要
在视频生成领域精确捕捉空间和时间依赖关系是生成高质量视频的关键但现有算法存在显著缺陷本文提出创新解决方案具体内容如下
现有算法问题当前算法虽能在短时间内准确预测却普遍存在时间不一致问题。当生成内容暂时移出视野后再次出现时模型会生成与之前不同的内容这严重影响视频质量。缺乏评估基准目前针对具有长时依赖关系的视频生成任务缺少成熟、可靠的评估基准阻碍了该领域的发展。构建挑战性数据集为解决评估难题作者精心构建了3个具有长程依赖关系的视频数据集为评估模型在复杂环境下处理长时依赖关系的能力提供了有效工具。评估现有模型利用构建的数据集对当前的视频生成模型进行全面评估清晰地观察到这些模型在时间一致性方面存在的局限性为后续改进和创新提供了方向。提出TECO模型为改善现有问题引入了时间一致变换器TECO。这是一种新型生成模型它通过压缩输入序列、应用时间变换器以及利用空间MaskGit扩展等操作在提高视频长期一致性的同时还能减少采样时间在众多评估指标上超越了现有的视频生成模型。成果展示文章提供了TECO模型在多个数据集上的视频预测样本同时展示了部分样本对应的3D可视化效果。
1. 引言
最近在复杂视频数据上生成高保真且多样样本方面取得巨大进展主要得益于计算资源增加和高效大容量神经架构。然而这些进展大多集中在生成短视频上。基于短上下文窗口的模型虽能以滑动窗口方式生成长视频但缺乏时间一致性无法在相机平移回原位置时生成相同内容对未观察位置的预测也难以与新想象场景保持一致。 已有研究针对长期依赖关系建模包括时间层次结构、带有逐帧插值的跨步采样等技术还有在稀疏帧集上训练或通过压缩表示对视频建模的方法详细内容可参考附录L。 但是当前的视频生成方法在处理长程依赖数据集和评估时间一致性方面存在的问题具体如下
长程依赖数据集处理难题众多视频生成方法在扩展到具有大量长程依赖关系的数据集时面临困境。例如Clockwork-VAE受递归影响训练时间长且难以适应复杂数据基于潜在空间的变换器方法因注意力机制的二次复杂度处理长视频时扩展性不佳在标记子集上训练的方法受截断时间反向传播或简单时间操作的制约。时间一致性评估缺失目前缺少能准确评估视频生成方法时间一致性的基准。以往工作有的聚焦于仅靠短期依赖就能精准预测的长视频生成有的依赖对图像保真度敏感但无法捕捉长程时间依赖的指标如FVD。
在本文中作者引入了一组新颖的长时视频生成基准以及相应的评估指标以更好地捕捉时间一致性。此外还提出了时间一致视频变换器TECO这是一种向量量化的潜在动力学模型它使用高效的变换器在紧凑的表示空间中有效地对长期依赖关系进行建模。主要贡献总结如下
提出了3个具有长程依赖关系的视频数据集及相关指标用于更好地评估视频预测中的时间一致性。数据集包括DMLab、我的世界和Habitat中的3D场景生成。在这些数据集上对最先进的视频生成模型进行基准测试并分析每个模型学习长时依赖关系的能力。引入了TECO这是一种高效且可扩展的视频生成模型它学习压缩表示以便进行高效的训练和生成。作者展示了TECO在各种具有挑战性的视频预测任务上具有强大的性能并且能够利用长期时间上下文生成高质量且一致的视频同时保持快速的采样速度。
2. 预备知识
2.1 VQ-GAN
VQ-GAN是一种自动编码器它学习将数据压缩为离散的潜在表示由编码器 E E E、解码器 G G G、码本 C C C和判别器 D D D组成。过程如下
给定一个图像 x ∈ R H × W × 3 x \in \mathbb{R}^{H×W×3} x∈RH×W×3编码器 E E E将 x x x映射到其潜在表示 h ∈ R H ′ × W ′ × D h \in \mathbb{R}^{H×W×D} h∈RH′×W′×D通过在由嵌入 C { e i } i 1 K C \{e_{i}\}_{i 1}^{K} C{ei}i1K组成的码本中进行最近邻查找对其进行量化生成 z ∈ R H ′ × W ′ × D z \in \mathbb{R}^{H×W×D} z∈RH′×W′×D。 z z z通过解码器 G G G进行重构得到 x ^ \hat{x} x^。
在这个过程中直通估计器Bengio2013用于在量化步骤中保持梯度流动。码本优化以下损失 L V Q ∥ s g ( h ) − e ∥ 2 2 β ∥ h − s g ( e ) ∥ 2 2 1 \mathcal{L}_{VQ}\| sg(h)-e\| _{2}^{2}\beta\| h-sg(e)\| _{2}^{2} 1 LVQ∥sg(h)−e∥22β∥h−sg(e)∥221 其中 L V Q \mathcal{L}_{VQ} LVQVQ - GAN中码本优化的矢量量化损失用于衡量量化过程误差。 h h h编码器输出的潜在表示。 e e e码本 c c c中与 h h h最接近的嵌入向量。 s g ( ⋅ ) sg(\cdot) sg(⋅)停止梯度操作符保证量化过程中梯度正确流动。 β \beta β超参数常取0.25控制两部分损失的相对权重。 公式由两部分组成 ∥ s g ( h ) − e ∥ 2 2 \| sg(h)-e\| _{2}^{2} ∥sg(h)−e∥22关注编码误差 β ∥ h − s g ( e ) ∥ 2 2 \beta\| h - sg(e)\| _{2}^{2} β∥h−sg(e)∥22关注解码误差。 其中 β 0.25 \beta 0.25 β0.25是一个超参数 e e e是从码本 C C C中得到的最近邻嵌入。为了进行重构VQ-GAN用感知损失Zhang等人2012 L L P I P S \mathcal{L}_{LPIPS} LLPIPS代替了原来的 ℓ 2 \ell_{2} ℓ2损失。最后为了鼓励生成更高保真度的样本训练补丁级判别器 D D D 对真实图像和重构图像进行分类损失为 L G A N l o g D ( x ) l o g ( 1 − D ( x ^ ) ) 2 \mathcal{L}_{GAN}log D(x)log (1-D(\hat{x})) 2 LGANlogD(x)log(1−D(x^))2 其中 L G A N \mathcal{L}_{GAN} LGAN生成对抗网络GAN的损失函数用于训练判别器以区分真实图像和生成图像。 D D D判别器是一个神经网络用于判断输入图像是真实图像的概率输出值范围在 [ 0 , 1 ] [0, 1] [0,1]之间。 x x x真实图像来自原始的训练数据集。 x ^ \hat{x} x^生成的重构的图像由VQ - GAN的解码器生成。 该公式通过使 D ( x ) D(x) D(x)趋近于1判别真实图像 D ( x ^ ) D(\hat{x}) D(x^)趋近于0判别生成图像来优化判别器。 总体而言VQ-GAN优化以下损失 min E , G , C max D L L P I P S L V Q λ L G A N 3 \min_{E, G, C} \max_{D} \mathcal{L}_{LPIPS}\mathcal{L}_{VQ}\lambda \mathcal{L}_{GAN} 3 E,G,CminDmaxLLPIPSLVQλLGAN3 L L P I P S \mathcal{L}_{LPIPS} LLPIPS基于学习的感知图像块相似性损失Learned Perceptual Image Patch Similarity。它是一种感知损失用于衡量生成图像与真实图像在感知上的差异更符合人类对图像相似性的主观判断。 L V Q \mathcal{L}_{VQ} LVQ矢量量化损失用于优化码本。它包含两部分主要衡量编码器输出的潜在表示与码本中最近邻嵌入向量之间的编码和解码误差公式为 L V Q ∥ s g ( h ) − e ∥ 2 2 β ∥ h − s g ( e ) ∥ 2 2 \mathcal{L}_{VQ}\| sg(h)-e\| _{2}^{2}\beta\| h - sg(e)\| _{2}^{2} LVQ∥sg(h)−e∥22β∥h−sg(e)∥22。 L G A N \mathcal{L}_{GAN} LGAN生成对抗网络的损失用于训练判别器区分真实图像和生成图像公式为 L G A N log D ( x ) log ( 1 − D ( x ^ ) ) \mathcal{L}_{GAN}\log D(x)\log (1 - D(\hat{x})) LGANlogD(x)log(1−D(x^))。 λ \lambda λ自适应权重用于平衡 L G A N \mathcal{L}_{GAN} LGAN与其他损失项的相对重要性其计算公式为 λ ∥ ∇ G L L L P I P S ∥ 2 ∥ ∇ G L L G A N ∥ 2 δ \lambda\frac{\left\|\nabla_{G_{L}} L_{LPIPS}\right\|_{2}}{\left\|\nabla_{G_{L}} L_{GAN}\right\|_{2}\delta} λ∥∇GLLGAN∥2δ∥∇GLLLPIPS∥2其中 G L G_{L} GL是解码器的最后一层 δ \delta δ是一个小的常数如 δ 1 0 − 6 \delta 10^{-6} δ10−6。 其中 λ ∥ ∇ G L L L P I P S ∥ 2 ∥ ∇ G L L G A N ∥ 2 δ \lambda\frac{\left\|\nabla_{G_{L}} \mathcal{L}_{LPIPS}\right\|_{2}}{\left\|\nabla_{G_{L}} \mathcal{L}_{GAN}\right\|_{2}\delta} λ∥∇GLLGAN∥2δ∥∇GLLLPIPS∥2是一个自适应权重 G L G_{L} GL是解码器的最后一层 δ 1 0 − 6 \delta 10^{-6} δ10−6 L L P I P S \mathcal{L}_{LPIPS} LLPIPS是Zhang等人2012中描述的相同距离度量。 VQ其实就是向量量化的意思在之前的系列文章中我们介绍了VAE的向量量化版本多模态论文笔记——VQ-VAE和VQ-VAE-2 2.2 MaskGit
MaskGit 对离散标记如由VQ-GAN生成的标记的分布进行建模。它通过在训练期间使用掩码标记预测目标以一小部分采样成本生成与自回归模型具有竞争力的样本质量的图像。
形式上将 z ∈ Z H × W z \in \mathbb{Z}^{H×W} z∈ZH×W表示为代表图像的离散潜在标记。对于每个训练步骤均匀采样 t ∈ [ 0 , 1 ) t \in [0, 1) t∈[0,1)并随机生成一个掩码 m ∈ { 0 , 1 } H × W m \in \{0, 1\}^{H×W} m∈{0,1}H×W其中有 N ⌈ γ H W ⌉ N\lceil\gamma H W\rceil N⌈γHW⌉个被掩码的值这里 γ cos ( π 2 t ) \gamma\cos (\frac{\pi}{2} t) γcos(2πt)。然后MaskGit通过以下目标学习预测被掩码的标记 L m a s k − E z ∈ D [ log p ( z ∣ z ⊙ m ) ] \mathcal{L}_{mask }-\mathbb{E}_{z \in \mathcal{D}}[\log p(z | z \odot m)] Lmask−Ez∈D[logp(z∣z⊙m)] 在推理期间由于MaskGit已被训练以对任何一组无条件和条件概率进行建模我们可以在每次采样迭代中对任何标记子集进行采样。Chang等人2022引入了一种基于置信度的采样机制而其他工作Lee等人2022提出了一种迭代采样和修正方法。
3. TECO
作者提出时间一致视频变换器TECO这是一种视频生成模型能够更有效地扩展到对更长时间范围的视频进行训练。
3.1 架构概述 图3. TECO的架构设计。(a) 以往基于VQ编码的视频生成模型会对所有编码采用单一的时空变换器。由于注意力机制具有二次方复杂度在扩展到长序列时这种方法的计算成本过高。(b) 我们提出一种新颖且高效的架构先在空间上进行大幅下采样再将数据输入到时间变换器中然后通过逐帧单独应用的空间MaskGit恢复到原始空间尺寸。在图中变换器模块展示了注意力连接的数量。在300帧的训练序列上与现有模型相比TECO的效率提升了几个数量级使得在给定的计算资源下能够使用更大的模型。 作者提出的框架如图3所示含一系列视频帧 x 1 : T x_{1:T} x1:T主要创新是设计出能扩展到长序列的高效架构。
先前方法先前先进方法在VQ码上训练单一时空变换器对每个码进行建模处理含数万个标记的序列成本极高但能学习高度多模态分布且在复杂视频上扩展性好。TECO架构目标保留高容量扩展特性同时使训练和推理效率提升几个数量级。
在以下部分将阐述模型各组件的设计动机并给出一些具体的设计选择以确保效率和可扩展性。TECO由四个组件公式 5 组成
编码器 z t E ( x t , x t − 1 ) z_{t}E(x_{t}, x_{t - 1}) ztE(xt,xt−1)时间变换器 h t H ( z ≤ t ) h_{t}H(z_{\leq t}) htH(z≤t)空间MaskGit p ( z t ∣ h t − 1 ) p(z_{t} | h_{t - 1}) p(zt∣ht−1)解码器 p ( x t ∣ z t , h t − 1 ) p(x_{t} | z_{t}, h_{t - 1}) p(xt∣zt,ht−1)
编码器
利用视频数据中的时空冗余来实现压缩表示。为此作者提出学习一个CNN编码器 z t E ( x t , x t − 1 ) z_{t}E(x_{t}, x_{t - 1}) ztE(xt,xt−1)它通过在通道维度上连接前一帧 x t − 1 x_{t - 1} xt−1对当前帧 x t x_{t} xt进行编码然后使用码本 c c c对输出进行量化以生成 z t z_{t} zt。作者还做了如下的优化
在每个时间步应用公式1中定义的VQ损失。对码本和嵌入进行 ℓ 2 \ell_{2} ℓ2归一化以鼓励更多地使用码本Yu等人2021。第一帧与零连接并且不对 z 1 z_{1} z1进行量化以防止信息丢失。
时间变换器
与连续潜在表示相比压缩的离散潜在表示损失更大并且往往需要更高的空间分辨率。因此在对时间信息进行建模之前先应用一个跨步卷积对每个离散潜在 z t z_{t} zt进行下采样在视觉上更简单的数据集可以进行更多的下采样而视觉上复杂的数据集则需要较少的下采样。之后再学习一个大型变换器对时间依赖关系进行建模然后应用转置卷积将表示上采样回 z t z_{t} zt的原始分辨率。总之使用以下架构 h t H ( z t ) ConvT ( Transformer ( Conv ( z t ) ) ) h_{t}H\left(z_{t}\right)\text{ConvT}\left(\text{Transformer}\left(\text{Conv}\left(z_{t}\right)\right)\right) htH(zt)ConvT(Transformer(Conv(zt)))
解码器
解码器是一个上采样CNN用于重建 x ^ t D ( z t , h t ) \hat{x}_{t}D(z_{t}, h_{t}) x^tD(zt,ht)其中 z t z_{t} zt可以解释为时间步 t t t的后验 h t h_{t} ht是时间变换器的输出它汇总了先前时间步的信息。 z t z_{t} zt和 h t h_{t} ht在通道维度上连接后输入到解码器中。解码器与编码器一起优化以下交叉熵重建损失 L r e c o n − 1 T ∑ t 1 T log p ( x t ∣ z t , h t ) \mathcal{L}_{recon }-\frac{1}{T} \sum_{t 1}^{T} \log p\left(x_{t} | z_{t}, h_{t}\right) Lrecon−T1t1∑Tlogp(xt∣zt,ht) 这鼓励 z t z_{t} zt特征编码帧之间的相对信息因为时间变换器输出 h t h_{t} ht随时间聚合信息从而学习更压缩的代码以便在更长的序列上进行高效建模。
空间MaskGit
最后使用MaskGit对先验 p ( z t ∣ h t ) p(z_{t} | h_{t}) p(zt∣ht)进行建模。作者表明与自回归先验相比使用MaskGit先验不仅可以实现更快的采样还能提高采样质量。在每次训练迭代中我们按照先前的工作对随机掩码 m t m_{t} mt进行采样并优化 L p r i o r − 1 T ∑ t 1 T log p ( z t ∣ z t ⊙ m t ) \mathcal{L}_{prior }-\frac{1}{T} \sum_{t 1}^{T} \log p\left(z_{t} | z_{t} \odot m_{t}\right) Lprior−T1t1∑Tlogp(zt∣zt⊙mt) 其中 h t h_{t} ht与被掩码的 z t z_{t} zt在通道维度上连接以预测被掩码的标记。在生成过程中作者遵循Lee等人2022的方法即最初每次以 8 个为一组生成每一帧然后经过两轮修正每次重新生成一半的标记。
训练目标
最终目标如下 L T E C O L V Q L r e c o n L p r i o r \mathcal{L}_{TECO }\mathcal{L}_{VQ}\mathcal{L}_{recon }\mathcal{L}_{prior } LTECOLVQLreconLprior
3.2 DropLoss 图4. DropLoss通过在每次训练迭代中仅对随机选择的时间索引子集计算损失提高了长序列训练的可扩展性。对于TECO我们无需为被随机剔除的时间步计算解码器和MaskGit相关内容。 作者提出DropLoss这是一种简单的技巧用于实现更具可扩展性和高效的训练图4。由于其架构设计TECO可以分为两个组件 1学习时间表示由编码器和时间变换器组成 2预测未来帧由动力学先验和解码器组成。
可以通过随机丢弃不进行解码的时间步来提高训练效率这些时间步从重建损失中省略。例如给定一个有 T T T帧的视频我们计算所有 t ∈ { 1 , … , T } t \in \{1, \ldots, T\} t∈{1,…,T}的 h t h_{t} ht然后仅对10%的索引计算损失 L p r i o r L_{prior} Lprior和 L r e c o n L_{recon} Lrecon。 由于每次迭代都随机选择索引模型仍然需要学习准确预测所有时间步。这显著降低了训练成本因为解码器和动力学先验需要大量计算。DropLoss适用于广泛的架构以及视频预测之外的任务。
4. 实验
4.1 数据集
为衡量视频预测长程一致性引入三个具挑战性的视频数据集及Kinetics - 600数据集
DMLab - 40k基于DeepMind Lab模拟器生成。在随机纹理的3D迷宫中选点并导航产生40k个300帧、 64 × 64 64×64 64×64的动作条件视频智能体在 7 × 7 7×7 7×7迷宫随机遍历。对模型进行动作条件与无条件预测训练用例在4.3节讨论。Minecraft - 200k源于我的世界游戏在沼泽生物群系收集200k个300帧、 128 × 128 128×128 128×128的动作条件视频玩家随机行走与转向使场景部分进出视野。为便于评估对模型进行动作条件训练。Habitat - 200k借助Habitat模拟器编译约1400个室内扫描生成200k个300帧、 128 × 128 128×128 128×128的动作条件视频用内置算法构建动作轨迹。对模型进行无条件和动作条件预测训练。Kinetics - 600原用于动作识别的真实世界复杂数据集。在无动作的视频预测任务中评估方法基于20帧生成80个未来帧过滤短于100帧视频后用392k个视频训练评估分辨率 128 × 128 128×128 128×128。虽长程依赖关系少但用于表明方法可扩展到复杂自然视频。
4.2 基线模型
我们与从几个不同模型家族中选择的最先进的基线模型进行比较基于潜在变量的变分模型、自回归似然模型和扩散模型。此外为了提高效率我们使用针对每个数据集预训练的VQ-GAN在VQ码上训练所有模型。对于我们的扩散基线模型我们遵循Rombach等人2022的方法使用VAE而不是VQ-GAN。请注意我们的基线模型中没有GAN因为据我们所知不存在在潜在空间而不是原始像素上进行训练的GAN而这对于适当地扩展到长视频序列至关重要。 - 时空变换器相关将TECO与VideoGPT、Phenaki、MaskViT、Hourglass变换器等时空变换器变体对比仅在DMLab数据集评估评估时Phenaki不包含文本条件。 - FitVid基于CNN和LSTM的先进变分视频模型通过高效架构设计扩展到复杂视频。 - Clockwork VAE变分视频模型借潜在变量层次结构学习长程依赖关系。 - Perceiver AR作为VQ - GAN离散潜在空间上的AR基线模型能有效整合长程顺序依赖关系因其比其他自回归基线模型如VideoGPT、TATS在处理大量标记时成本更低而被选用。 - Latent FDM训练Latent FDM作为扩散基线模型为公平比较在潜在空间训练遵循LDM方法用自动编码器将帧编码为连续潜在变量。
4.3 实验设置
训练
训练设置所有模型在TPU - v3实例v3 - 8到v3 - 128 TPU pod类似4个V100到64个V100上训练计算预算以TPU - v3天衡量训练100万次迭代耗时约3 - 5天。数据集适配DMLab、Minecraft和Habitat数据集使用完整300帧视频训练Kinetics - 600用100帧训练。VQGAN训练VQGAN在8个A5000 GPU上训练每个数据集需2 - 4天将所有视频下采样到每帧16×16离散潜在网格。具体超参数和计算预算见附录N。
评估
传统指标局限标准评估方法FVD、PSNR、SSIM、LPIPS难以衡量长程一致性。FVD对图像保真度敏感且依赖短Kinetics - 600剪辑训练的I3D网络PSNR、SSIM和LPIPS评估常需采样数百未来帧找最匹配样本与时间一致性目标不符因期望模型确定性生成。改进评估指标提出修改后的评估指标利用PSNR、SSIM和LPIPS更好衡量时间一致性。对DMLab、Minecraft和Habitat基于144个过去帧和动作条件设定用156个未来真实帧测量上述指标同时在基于36帧条件设定的300帧视频上计算FVD。对Kinetics - 600在基于20帧条件设定的100帧视频上评估FVD。所有指标在256个示例批次上计算平均4次运行共生成1024个样本。
4.4 基准测试结果
在不同数据集上TECO与其他模型对比结果如下
DMLab和Minecraft定量结果表明在300帧视频训练时TECO在所有指标上最优。图6展示其生成的DMLab迷宫更具一致性。CW - VAE、FitVid和Perceiver AR能产生清晰预测但长程上下文建模欠佳随预测范围增加逐帧指标急剧下降。Latent FDM预测有一致性但因FVD对高频误差敏感FVD较高。Habitat因模型并行性需求仅评估Perceiver AR和Latent FDM这两个最强基线模型。由于视频复杂性所有模型逐帧指标表现不佳但TECO的FVD明显更优。定性来看Latent FDM预测易模糊、样本质量差Perceiver AR生成帧质量高但时间一致性不如TECO其生成的智能体运动与实际不符TECO生成的场景遍历与数据分布更契合。Kinetics - 600在该数据集基于20帧预测80个128×128帧的FVD结果显示虽数据集长程依赖关系少但TECO结合更长上下文生成结果更稳定退化慢。Perceiver AR易快速退化Latent FDM表现居中。
4.5 消融实验
在本节通过在SomethingSomething - v2SSv216帧短序列上做消融实验探究模型架构决策影响具体如下
证明使用带MaskGit先验的VQ潜在动力学在复杂真实世界数据上优于如变分方法等其他潜在动力学模型公式。表明条件编码能为视频预测学习更好的表示。对码本大小消融实验发现存在最优码本大小且代码数量不过多就影响不大过多则难学习先验。展示DropLoss好处训练速度提升60%FVD略增对长序列好处更大能让视频模型兼顾长程上下文且性能成本低。具体细节见附录表F.1 。
4.6 进一步见解
作者突出了一些设计长程视频生成模型的关键实验见解。更多细节可以在附录I和附录G中找到。 - 保真度与长程依赖的权衡固定容量网络中生成高保真与时间一致的视频存在固有权衡。瓶颈表示可侧重长程信息高分辨率表示能提升保真度。TECO因学习紧凑表示在保真度与时间一致性间权衡更佳PSNR/SSIM/LPIPS及FVD表现更优。 - 训练时间与指标变化训练中短程指标早期易饱和长程指标训练后期仍在改善。推测因似然目标下学习相邻帧比特比长程比特容易。此发现促使TECO采用高效视频架构在固定预算下增加梯度训练步数。 - 采样速度图5展示各模型在Minecraft上采样速度其他数据集使用不同模型大小时结果类似。FitVid和CW - VAE速度快但样本质量差Perceiver AR和Latent FDM样本质量高但比TECO慢20 - 60倍TECO在保证样本质量的同时采样速度较快。
5. 讨论
我们引入了TECO这是一种高效的视频预测模型它利用数百帧的时间上下文以及一个全面的基准来评估长程一致性。我们的评估表明TECO准确地整合了长程上下文在广泛的数据集上优于最先进的基线模型。此外我们引入了几个具有挑战性的视频数据集希望这些数据集能使未来评估视频预测模型的时间一致性变得更加容易。我们确定了几个限制作为未来工作的方向
评估指标优化虽在特定条件下PSNR、SSIM和LPIPS可衡量一致性但随着预测范围增大需更好的评估指标因新生成场景与真实情况相关性降低。模型架构拓展当前重点是结合压缩标记、表达性先验与简单全注意力变换器参考高效序列模型的前期研究成果有望进一步扩展模型。训练方式改进基于预训练的VQ - GAN代码训练模型降低数据维度虽能训练长序列但存在重建误差如Kinetics - 600中的伪影。TECO直接在像素上训练会因 ℓ 2 \ell_{2} ℓ2损失致预测模糊采用扩散或GAN损失在像素上训练是值得探索的方向。
热门专栏
机器学习
机器学习笔记合集
深度学习
深度学习笔记合集