惠阳网站设计开发,做ppt模板网站,官方网站怎么做,网站订单系统模板Cross-Modal Contrastive Learning for Text-to-Image Generation
公众#xff1a;EDPJ#xff08;添加 VX#xff1a;CV_EDPJ 或直接进 Q 交流群#xff1a;922230617 获取资料#xff09;
目录
0. 摘要
1. 简介
2. 相关工作
3. 基础
4. 方法
4.1 用于文本到图像…Cross-Modal Contrastive Learning for Text-to-Image Generation
公众EDPJ添加 VXCV_EDPJ 或直接进 Q 交流群922230617 获取资料
目录
0. 摘要
1. 简介
2. 相关工作
3. 基础
4. 方法
4.1 用于文本到图像合成的对比损失
4.2 注意力自调制生成器
4.3 对比鉴别器
5. 评估
5.1 数据
5.2 评估指标
6. 实验
6.1 结果
6.2 消融
7. 结论
S. 总结
S.1 主要贡献
S.2 架构和方法 0. 摘要
文本到图像合成系统的输出应该是连贯、清晰、具有高语义保真度的照片逼真场景与其条件文本描述相一致。我们的跨模态对比生成对抗网络Cross-Modal Contrastive Generative Adversarial NetworkXMC-GAN通过最大化图像和文本之间的相互信息来应对这一挑战。它通过多个对比损失来捕捉跨模态和内部模态的对应关系。XMC-GAN 使用一种注意力自调制生成器强化文本与图像的对应关系以及一种对比鉴别器既充当评论家又作为对比学习的特征编码器。XMC-GAN的输出质量明显优于先前的模型如我们在三个具有挑战性的数据集上展示的。在 MS-COCO 上XMC-GAN 不仅将最先进的 FID 从 24.70 提高到 9.33而且更重要的是人们更倾向于选择XMC-GAN对于图像质量为 77.3%对于图像文本对齐为 74.1%相较于其他三个近期的模型。XMC-GAN 还推广到具有更长、更详细描述的具有挑战性的 Localized Narratives 数据集将最先进的FID从 48.70 提高到 14.12。最后我们在具有挑战性的 Open Images 数据上训练和评估XMC-GAN建立了一个强大的基准 FID 分数为 26.91。
1. 简介
与其他类型的输入例如素描和物体掩模相比描述性句子是一种直观且灵活的表达视觉概念以生成图像的方式。文本到图像合成的主要挑战在于从非结构化的描述中学习并处理视觉和语言输入之间的不同统计属性。
生成对抗网络GANs[12] 使用了条件 GAN 的表述 [11] 在文本到图像生成方面取得了令人期待的结果[446162]。AttnGAN [58] 提出了一个多阶段的细化框架通过关注描述中的相关单词生成细致的细节。这些模型在单一领域数据集例如鸟类 [56] 和花卉 [35]上生成高保真度的图像但在包含许多对象的复杂场景例如 MS-COCO [30] 中的场景上表现困难。近期的方法[18271622] 提出了以对象驱动的层次化方法明确地对图像中的对象实例进行建模。在给定文本描述的情况下它们首先推断出一个语义布局例如对象边界框、分割掩模或其组合然后从布局生成图像。这些层次化方法在应用于现实场景时很繁琐生成变成了一个多步骤的过程从框到掩模到图像模型需要更多精细的对象标签来训练。 我们研究在文本到图像合成的背景下进行对比学习并证明一个简单的一阶段 GAN 在没有对象级注释的情况下可以胜过先前的以对象为驱动和多阶段方法。除了生成逼真的图像外我们还希望1图像应该整体上与描述相匹配2当它们以相同描述为条件时生成的图像应该与真实图像相匹配3单个图像区域应该是可识别的并与句子中的词语一致。为了实现这些愿望并实现强大的语言对齐我们提出通过对比学习最大化相应对之间的相互信息的方法。我们的方法跨模态对比生成对抗网络XMC-GAN使用图像到句子、图像区域到单词以及图像到图像的对比损失以强化生成图像与其标题之间的对齐关系图 1。我们的主要贡献包括
我们提出了 XMC-GAN这是一个简单的一阶段 GAN采用了几个对比损失。XMC-GAN 在先前的模型上取得了显著的改进例如在 MSCOCO 上将 FID [15] 从 24.70 降至 9.33在 LN-COCOLocalized Narratives [40] 的 MS-COCO 部分上从 48.70 降至 14.12。我们进行了彻底的人工评估将 XMC-GAN 与三个近期模型进行比较。结果显示77.3% 的人更喜欢 XMC-GAN 的图像逼真度以及 74.1% 的人更喜欢其图像文本对齐性。我们在具有挑战性的 LN-OpenImagesLocalized Narratives 的 Open Images 子集上建立了一个强大的基准。据我们所知这是首次对 Open Images 的多样化图像和描述进行文本到图像结果的训练和测试。我们对 XMC-GAN 中使用的对比损失进行了彻底的分析为条件 GAN 中的对比学习提供了一般性的建模见解。
XMC-GAN 一贯产生比先前模型更连贯和详细的图像。除了更大的逼真度具有更清晰、更明确的对象它们更好地捕捉了完整的图像描述包括命名对象的存在和背景组合。
2. 相关工作
文本到图像合成。文本到图像合成通过深度生成模型包括 pixelCNN [55, 45]、近似 Langevin 采样 [34]、变分自动编码器VAEs [21, 13] 和生成对抗网络GANs [12, 44]得到了迅速改进。GAN-based 模型特别展示了更好的样本质量 [61, 64, 58, 66, 59, 26, 52, 42, 24]。GAN-INT-CLS [44] 是第一个使用条件 GAN 进行文本到图像生成的模型。StackGAN [61, 62] 通过渐进生成不同分辨率的图像的粗到细的框架提高了高分辨率合成的质量。AttnGAN [58] 引入了跨模态注意力以更好地捕捉细节。DM-GAN [66] 通过一个内存模块自适应地完善生成的图像该模块写入和读取文本和图像特征。MirrorGAN [43] 通过在生成的图像上进行标题生成来强化文本-图像一致性。SD-GAN [59] 提出了单词级条件 batch normalization 和双编码器结构并使用三元损失来改善文本-图像对齐。与三元损失相比我们的对比损失不需要寻找信息丰富的负例因此降低了训练复杂性。CP-GAN [28] 提出了一个以对象为导向的图像编码器和细粒度鉴别器。它生成的图像获得了高 Inception Score [46]然而我们展示了当用更强大的FID [15] 指标和人工评估进行评估时其性能较差见 Sec. 6.1。为了创建最终的高分辨率图像这些方法依赖于多个生成器和鉴别器以在不同分辨率生成图像。其他人提出了明确在推断语义布局之后生成不同对象的分层模型 [18, 16, 22]。这些方法的缺点是它们需要细粒度的对象标签例如对象边界框或分割地图因此生成是一个多步骤的过程。与这些多阶段和多步骤的框架相比我们提出的 XMC-GAN 只有一个单一的生成器和鉴别器进行端到端训练并生成质量更高的图像。
对比学习及其在 GAN 中的应用。对比学习是一种强大的自监督表示学习方案 [36, 14, 5, 57]。它通过将正对和负对进行对比强制在不同的增强下图像表示的一致性。在几个对抗训练场景下进行了探索 [25, 65, 9, 41]。Cntr-GAN [65] 在无条件图像生成中使用对比损失作为图像增强的正则化。ContraGAN [20] 探讨了类别条件图像生成的对比学习。DiscoFaceGAN [9] 引入对比学习以强化面部生成的解缠。CUT [39] 提出了基于补丁的对比学习通过使用输入和输出图像中相同位置的正对来进行图像到图像的转换。与先前的工作不同我们在文本到图像合成中使用了模态内图像-图像和跨模态图像-文本和区域-单词的对比学习图 1。
3. 基础 4. 方法
我们在下面描述 XMC-GAN 的损失和组件。请参见图 2。
4.1 用于文本到图像合成的对比损失
文本到图像合成是一项有条件的生成任务。生成的图像应该既逼真又与给定的描述对齐。为了实现这一目标我们建议最大化相应对之间的相互信息(1) 图像和句子(2) 生成的图像和具有相同描述的真实图像以及(3) 图像区域和单词。直接最大化相互信息是困难的参见 Sec. 3.1因此我们通过优化对比即 InfoNCE损失来最大化相互信息的下限。
图像-文本对比损失。给定图像 x 及其相应的描述 s基于余弦相似度我们定义得分函数按照先前对比学习中的工作 [14, 5, 36] 进行 并且 τ 表示一个温度超参数。f_img 是一个图像编码器用于提取整体图像特征向量而 f_sent 是一个句子编码器用于提取全局句子特征向量。这将图像和句子的表示映射到一个共同的嵌入空间 R^D。图像 x_i 和其配对的句子 s_i 之间的对比损失计算如下 这种形式的对比损失也被称为归一化的温度缩放交叉熵损失normalized temperature-scaled cross entropy lossNT-Xent[5]。
具有相同描述的生成图像和真实图像之间的对比损失。该损失也与 NT-Xent 有关。主要的区别在于共享的图像编码器 f_img 提取了实际图像和生成图像的特征。两个图像之间的得分函数为 S_img(x, ~x) cos(f_img(x), f_img(~x)) / τ。实际图像 x_i 和生成图像 G(z_i, s_i) 之间的图像-图像对比损失为 图像区域和单词之间的对比损失。各个图像区域应该与输入描述中对应的单词一致。我们使用注意力 [58] 来学习图像 x 中的区域与句子 s 中的单词之间的连接而无需需要将单词和区域对齐的细粒度注释。首先我们计算句子中所有单词与图像中所有区域之间的成对余弦相似性矩阵然后我们计算单词 w_i 对区域 r_j 的软注意力 α_i,j 如下 其中f_word 和 f_region 分别代表单词和区域特征编码器R 是图像中的总区域数而 ρ_1 是一个用于减少软注意力熵的锐化超参数。第 i 个单词的对齐区域特征定义为 然后图像 x 中所有区域与句子 s 中所有单词之间的得分函数可以定义为 其中T 是句子中的总单词数。 ρ_2 是一个超参数用于确定最对齐的单词-区域对的权重例如当 ρ_2 → ∞ 时得分函数近似为 最后图像 x_i 中的单词和区域与其对齐的句子 s_i 之间的对比损失可以定义为 4.2 注意力自调制生成器
我们提出了一个一阶段的生成器直接生成所需分辨率的图像。这比以前的多阶段生成器要简单得多因为它们在多个不同的分辨率上创建图像。我们首先从标准的高斯分布中采样噪声 z。我们从预训练的 BERT [10] 模块中获得全局句子嵌入 e_s 和单词嵌入 e_w。将 e_s 和 z 连接起来形成全局条件然后通过多个上采样块详见附录生成一个 16 x 16 的特征图。全局条件也用作计算条件批量归一化层中的尺度参数 γ 和偏移参数 β 的条件。这个公式也被称为自调制 [6]。
自调制层提高了隐特征与条件输入的一致性但对于每个子区域缺乏更细致的细节。为了生成细粒度、可识别的区域我们提出了注意力自调制层。具体来说除了随机噪声 z 和全局句子嵌入 e_s 外我们修改了注意机制 [58] 以计算单词-上下文向量作为每个子区域的附加调制参数。对于具有特征 h_j 的第 j 个区域单词-上下文向量 c_j 为 其中T 是句子中的总单词数 ρ_0 是一个锐化的超参数。然后第 j 个区域的调制特征 h_j 可以定义为 其中μ 和 σ 是从聚合 batch 和空间维度得出的估计均值和标准差。γ_j(·) 和 β_j(·) 代表任何函数逼近器在我们的工作中我们简单地使用线性投影层。生成器的更多细节可以在附录中找到。
4.3 对比鉴别器
我们提出的鉴别器有两个角色(1) 充当评论家确定输入图像是真实的还是虚构的(2) 充当编码器计算全局图像和区域特征以用于对比损失。图像通过几个下采样块传递直到其空间尺寸缩小到 16x16见图 2左下角。然后应用 1x1 卷积以获得区域特征其中特征维度与单词嵌入的维度一致。原始图像特征通过另外两个下采样块和一个全局池化层。最后一个投影头计算对抗损失的 logit另一个投影头计算图像-句子和图像-图像对比损失的图像特征。请注意仅使用真实图像及其描述来训练这些鉴别器投影头是重要的。原因是生成的图像有时是不可识别的尤其是在训练开始时。使用这样的生成图像和句子对会损害图像特征编码器投影头的训练。因此对来自虚构图像的对比损失仅应用于生成器。除了鉴别器投影层之外我们还使用一个预训练的 VGG 网络 [49] 作为图像编码器用于额外的监督图像-图像对比损失见 Sec. 6.2。算法1 总结了XMC-GAN的训练过程。为简单起见在我们的实验中我们将所有对比损失系数算法 1 中的 λ_1、λ_2、λ_3设置为 1.0。 5. 评估
5.1 数据
我们在三个具有挑战性的数据集上对XMC-GAN进行了全面评估见表1概述。
MS-COCO [30] 常用于文本到图像合成。每个图像配有 5 个简短的标题。我们遵循大多数先前的工作使用 2014 年的划分COCO-14进行评估。 Localized Narratives [40] 包含了几个图像集的长篇图像描述。我们在 LN-COCO 上进行了结果基准测试其中包含了 MS-COCOCOCO-172017 年划分中图像的叙述。这些叙述平均比 MS-COCO 标题长四倍并且它们更加描述性见图 4。叙述还包含了口语转录所存在的不流畅之处。这些因素使得对于 LN-COCO 的文本到图像合成比 MS-COCO 更具挑战性。
我们还使用 LN-OpenImages 进行训练和评估这是 Localized Narratives 的 Open Images [23] 划分。其图像既多样又复杂平均有 8.4 个对象。LN-OpenImages 也比 MS-COCO 和 LN-COCO 大得多见表 1。据我们所知我们是第一个为 Open Images 训练和评估文本到图像生成模型的研究者。XMC-GAN 能够生成高质量的结果并为这项非常具有挑战性的任务设立了强有力的基准。
5.2 评估指标
我们遵循先前的工作通过生成 30,000 个随机标题的图像来报告验证结果。我们使用多个度量综合评估。
图像质量。我们使用标准的自动化指标来评估图像质量。Inception ScoreIS[46] 计算了在给定预训练图像分类器的条件类分布和边际类分布之间的 KL 散度。Fr´echet Inception DistanceFID[15] 是生成图像和真实图像的 Inception [51] 特征拟合的两个多变量高斯分布之间的 Fr´echet 距离。虽然 IS 和 FID 都已被证明与人类对生成图像质量的判断相关但 IS 可能不够信息丰富因为它容易过拟合并且可以通过简单的技巧进行操纵以实现更高的分数 [2, 17]。我们的结果进一步强调了这一点Sec. 6.1显示 FID 与人类对逼真度的判断更好地相关。
文本-图像对齐。遵循先前的工作 [58, 27]我们使用 R-precision 来评估生成的图像是否可以用于检索其条件描述。然而我们注意到先前的工作使用来自 AttnGAN [58] 的图像-文本编码器计算 R-precision并且许多其他方法在训练期间将这些编码器作为优化函数的一部分使用。这会使结果出现偏差许多生成的模型报告的 R-precision 分数明显高于真实图像。为了缓解这个问题我们使用在 Conceptual Captions 数据集 [48] 中对真实图像进行预训练的图像-文本双编码器 [38]该数据集与 MS-COCO 不相交。我们发现使用独立编码器计算 R-precision 更好地与人类判断相关。
标题检索指标评估整个图像是否与标题匹配。相反语义对象准确性Semantic Object AccuracySOA[17] 评估图像中各个区域和对象的质量。与先前的工作一样我们报告 SOA-C即每个类别的图像中检测到所需对象的百分比和 SOA-I即检测到所需对象的图像的百分比。SOA 的更多细节可以在 [17] 中找到。SOA 最初是为 COCO-14 设计的它可能需要很长时间来计算因为它需要为每个 MS-COCO 类标签生成多个样本。我们使用官方代码来计算表 2 中报告的指标但在我们计算 30,000 个随机样本的结果的 LN-COCO 和其他消融实验中我们进行了结果的近似。
人工评估。自动化指标在实验过程中对模型进行迭代时很有用但它们不能替代人眼。我们对从1000 个随机选择的标题生成的图像进行了彻底的人工评估。对于每个标题我们请 5 名独立的人类标注员根据1逼真度和2语言对齐性对生成的图像进行排名从最好到最差。 6. 实验
6.1 结果
COCO-14。图 3 显示了人工评估将 XMC-GAN 与三个最近的强模型进行比较CP-GAN [28]、SD-GAN [59] 和 OP-GAN [17]。给定由这四个模型生成的图像匿名化并随机排序注释员被要求根据质量从最好到最差对它们进行排名。逼真度和文本对齐性的判断是独立收集的。在这两个方面XMC-GAN 都是明显的赢家在逼真度比较中其输出在 77.3% 的情况下被评为最佳在文本对齐比较中为 74.1%。OP-GAN 排名第二分别为 9.90% 和 9.70%。XMC-GAN 实现了这一点同时它是一个更简单的单阶段模型而 OP-GAN 是多阶段模型需要对象边界框。对选定的图像的视觉检查图 4有力地显示了质量的大幅提升。与其他模型相比XMC-GAN 的图像保真度更高描绘的对象更清晰场景更连贯。这也适用于更多的随机样本请参阅附录。
表 2 提供了全面的 COCO-14 自动化指标结果。XMC-GAN 将 FID 从 24.70 提高到 9.33相对于排名第二的模型 OP-GAN [17]相对提高了 62.2%。在我们独立训练的编码器计算的 R-precision中XMC-GAN 也优于其他模型71% 对 59%表明生成的图像对其所依赖的标题的保真度有很大提高并与人类判断一致。尽管 CP-GAN 获得了更高的 IS 和 SOA 分数但我们的人工评估和对随机选择的图像的视觉检查都表明XMC-GAN 的图像质量要高得多。这可能是由于 IS 和SOA 不惩罚类内模态丢失类内低多样性的问题即生成每个类别的 “完美” 样本的模型可以在IS 和 SOA 上取得良好的分数。我们的发现与其他研究 [27, 2] 一致表明 FID 可能是衡量文本到图像合成质量的更可靠的度量标准。 LN-COCO。Localized Narratives [40] 包含更长的描述这增加了文本到图像合成的难度见 Sec. 5.1。表 3 显示 XMC-GAN 相对于先前的工作提供了巨大的改进。与 TReCS [22] 相比XMC-GAN 将 IS 和 FID 分别提高了 7.07 和 34.58。相对于 AttnGAN [58]它还将 R-precision 提高了 23.04%表明文本对齐性更好。通过随机选择的输出的定性比较来支持这一点XMC-GAN 的图像明显更清晰、更连贯见图 4。我们强调TReCS 利用了 LN-COCO 的鼠标轨迹注释将这种训练信号纳入 XMC-GAN 中将在未来进一步提升性能。
LN-OpenImages。我们在 Open Images 数据集上训练 XMC-GAN该数据集比 MS-COCO 更具挑战性因为图像和描述更加多样化。XMCGAN 实现了 IS 为 24.90FID 为 26.91和 R-precision 为 57.55并成功生成高质量图像见附录。据我们所知XMC-GAN 是第一个在 Open Images 上训练和评估的文本到图像模型。其强大的自动化评分为这个具有挑战性的数据集建立了强有力的基准结果。
6.2 消融
我们彻底评估了 XMC-GAN 的不同组件并分析了它们的影响。表 4 总结了我们在 COCO-14 验证集上的消融。为了研究 XMC-GAN 中使用的每个对比损失组件的影响我们尝试了四种损失1图像-句子2区域-词3使用鉴别器特征的图像-图像以及4使用 VGG 特征的图像-图像。对于3我们使用鉴别器编码器投影在表 4 中用 D 表示提取图像特征。对于4我们从在 ImageNet 上预训练的 VGG-19 网络[49] 中提取图像特征。 个体对比损失。表 4 显示与基线相比使用任何对比损失都改善了所有指标。在实验过程中我们还发现包括任何对比损失都极大地改善了训练稳定性。最大的改进来自跨模态图像-句子和区域-词对比损失分别将 FID 从 39.28 提高到 19.25 和 24.38。与图像-图像内模态对比损失相比例如仅包括鉴别器特征编码器D的损失仅将 FID 提高到 29.71。这些消融突显了跨模态对比损失的有效性句子和词对比损失分别极大地改善了文本对齐度指标同时提高了图像质量。
组合对比损失。组合对比损失提供了进一步的增益。例如同时使用图像-句子和区域-词损失比单独使用分别为 FID 19.25 和 24.38获得更好的性能FID 14.25。这表明局部和全局条件是互补的。此外同时使用跨模态损失句子和单词胜过内模态损失D VGGFID 得分分别为14.25 和 21.14。这些结果进一步强调了跨模态对比学习的有效性。然而跨模态和内模态对比损失也相辅相成最佳的 FID 分数来自结合图像-句子、区域-词和图像-图像VGG损失。在使用图像-图像D VGG损失时IS 和文本对齐性能进一步提高。为了获得我们的最终结果表2我们使用所有 4 个对比损失训练一个模型基础通道维度为 96。 更深的对比头。在无监督表示学习中 [5, 7]通常通过添加非线性层来提高性能。为了研究这一点我们增加了鉴别器中投影头的深度。在假图像上的 FID 和对比准确度 [5] 的训练曲线如图 5 所示跨足 1000 个时代。我们发现不使用额外的投影层可以获得最佳的 FID12.61与 2 层 MLP的 19.42 相比。此外我们还发现在投影头中添加更多层时假图像上的对比准确度也会提高从 76.56% 到 88.55%。我们假设在这种配置中鉴别器对对比学习任务过拟合导致在对抗任务中表现较差因此作为生成器的监督信号也更差。
注意力自调制。我们比较了两种生成器设置(1) 在所有残差块中使用自调制层 [6]和 (2) 在输入分辨率大于 16x16 的块中使用注意力自调制层见第 4.2 节。表 5 显示提出的注意力自调制层在所有指标上优于自调制层。
损失类型。在生成模型中经常使用的损失函数是在假图像和相应真实图像之间的 VGG [49] 输出上的 L2 损失。这也通常被称为感知损失 [19]。表 6 显示对比损失在性能上优于这种感知损失。这表明远离不匹配的样本比简单地拉近对齐的样本更有效。鉴于这种卓越的性能用对比损失替代感知损失可能有助于其他生成任务。
7. 结论
在这项工作中我们提出了一种跨模态对比学习框架用于训练文本到图像合成的 GAN 模型。我们研究了几种跨模态对比损失以强制图像和文本之间的对应关系。通过在多个数据集上进行人工和自动评估XMC-GAN 相比先前的模型取得了显著的改进它生成了更高质量的图像更好地匹配其输入描述包括对于长篇、详细的叙述。而且它是一个更简单的端到端模型。我们相信这些进展是朝着从自然语言描述生成图像的创造性应用迈出的重要一步。 S. 总结
S.1 主要贡献
为改进本文到图像对齐本文提出跨模态对比生成对抗网络Cross-Modal Contrastive Generative Adversarial NetworkXMC-GAN。它通过多个对比损失图像-文本真实图-生成图图像区域-句中词语来捕捉模态间和模态内的对应关系。XMC-GAN 使用一种注意力自调制生成器强化文本与图像的对应关系以及一种对比鉴别器既进行评判又作为对比学习的特征编码器。 S.2 架构和方法
XMC-GAN 的架构如图 2 所示。本文使用如下损失来生成与描述对齐且逼真的图像
图像文本对比损失计算通过图像编码器获得的图像特征与通过文本编码器获得的文本嵌入之间的对比损失。具有相同描述的生成图像和真实图像之间的对比损失。图像区域和单词之间的对比损失。