首页 > 立知

怎么把文字变成图片(如何把文字放到图片上面)

admin 立知 2021-12-12文字

自动文本到图像合成,其中训练模型以仅从文本描述生成图像,是一项具有挑战性的任务。它的研究为机器学习 (ML) 模型如何捕获视觉属性并将它们与文本相关联提供了丰富的见解。与指导图像创建的其他类型的输入相比,例如草图、对象蒙版或鼠标轨迹,描述性句子等,都是一种更直观、更灵活的视觉概念表达方式。因此,强大的自动文本到图像生成系统也可以成为快速内容创建的有用工具,并且可以应用于许多其他创意应用程序.

最先进的图像合成结果通常是使用生成对抗网络(GAN) 实现的,该网络训练两个模型——一个生成器,试图创建逼真的图像,以及一个鉴别器,它试图确定图像是真实的还是真实的或者捏造的。许多文本到图像生成模型是使用文本输入进行调节以生成语义相关图像的GAN 。这是非常具有挑战性的,尤其是在提供长而含糊的描述时。此外,GAN 训练容易出现模式崩溃,这是训练过程中常见的失败案例,其中生成器学习仅产生一组有限的输出,因此鉴别器无法学习识别伪造图像的鲁棒策略。为了减轻模式崩溃,一些方法使用迭代细化图像的多阶段细化网络。然而,这样的系统需要多阶段训练,这比简单的单阶段端到端模型效率低。其他努力依赖于分层方法,在最终合成逼真的图像之前首先对对象布局进行建模。这需要使用标记的分割数据,这可能很难获得。

在“文本到图像生成的跨模态对比学习”中,Google提出了跨模态对比生成对抗网络(XMC-GAN),它通过学习使用模态间(图像-文本)和模态内(图像-文本)最大化图像和文本之间的互信息来解决文本到图像的生成问题。这种方法有助于判别更稳健和判别力更强的特征,因此 XMC-GAN 即使进行单阶段训练也不太容易出现模式崩溃。重要的是,与之前的多阶段或分层方法相比,XMC-GAN 通过简单的单阶段生成实现了最先进的性能。它是端到端可训练的,只需要图像文本对(与标记分割或边界框数据相反)。

文本到图像合成

对比损失文本到图像合成系统的目标是生成清晰、逼真的场景,对其条件文本描述具有高语义保真度。为了实现这一点,Google建议最大化对应对之间的信息:

(1)带有描述场景的句子的图像(真实或生成);

(2) 生成的图像和具有相同描述的真实图像;

(3) 图像的区域(真实的或生成的)以及与之相关的单词或短语。

在 XMC-GAN 中,这是使用对比损失来强制执行的。与其他 GAN 类似,XMC-GAN 包含一个用于合成图像的生成器,以及一个被训练作为真实图像和生成图像之间的评论者的鉴别器。三组数据导致了该系统中的对比损失——真实图像、描述这些图像的文本以及根据文本描述生成的图像。生成器和鉴别器的单个损失函数是从整幅图像和全文描述计算的损失的组合,与从带有相关单词或短语的细分图像计算的损失相结合。然后,对于每批训练数据,Google计算余弦相似度每个文本描述和真实图像之间的得分,同样,每个文本描述和生成的图像批次之间的得分。目标是匹配对(文本到图像和真实图像到生成的图像)?具有高相似度得分,而不匹配对具有低得分。强制执行这样的对比损失允许鉴别器学习更健壮和鉴别性的特征。

文本到图像生成的深度学习神经网络,实现文字转换图片的效果

Google提出的 XMC-GAN 文本到图像合成模型中的模态间和模态内对比学习。

Google将 XMC-GAN 应用于三个具有挑战性的数据集——第一个是MS-COCO 图像的MS-COCO描述集合,另外两个是用Localized Narratives注释的数据集,其中一个涵盖了 MS-COCO 图像(Google称之为LN-COCO) 和另一个描述开放图像数据 (LN-OpenImages)。Google发现 XMC-GAN 在每个方面都达到了最先进的水平。XMC-GAN 生成的图像描绘的场景比使用其他技术生成的图像质量更高。在 MS-COCO 上,XMC-GAN 将最先进的Fréchet 初始距离(FID) 分数从 24.7 提高到 9.3,并且非常受人类评估者的青睐。

文本到图像生成的深度学习神经网络,实现文字转换图片的效果

MS-COCO上生成图像的选定定性结果

类似地,与其他三种最先进的方法(CP-GAN、SD-GAN、和OP-GAN)对比如下。

文本到图像生成的深度学习神经网络,实现文字转换图片的效果

MS-COCO对图像质量和文本对齐的人工评估,注释者从最好到最差对生成的图像进行排名(匿名和顺序随机化)

XMC-GAN 还可以很好地推广到具有挑战性的 Localized Narratives 数据集。Google之前的系统TReCS,使用鼠标轨迹输入处理本地化叙事的文本到图像生成,以提高图像生成质量。尽管没有收到鼠标轨迹注释,但 XMC-GAN 在 LN-COCO 上的图像生成方面能够显着优于 TReCS,将最先进的 FID 从 48.7 提高到 14.1。将鼠标轨迹和其他附加输入合并到端到端模型(如 XMC-GAN)中将在未来的工作中进行研究。

此外,Google还在 LN-OpenImages 上进行训练和评估,这比 MS-COCO 更具挑战性,因为数据集更大,图像涵盖更广泛的主题范围并且更复杂(平均 8.4 个对象)。据Google所知,XMC-GAN 是第一个在开放图像上训练和评估的文本到图像合成模型。XMC-GAN 能够生成高质量的结果,并在这项非常具有挑战性的任务上设定了 26.9 的强大基准 FID 分数。

文本到图像生成的深度学习神经网络,实现文字转换图片的效果

Open Images 上真实生成图像的随机样本

相关阅读:

  • 彭昱畅给抑郁症粉丝留言,文字温暖打动人,不愧是暖心彭彭
  • 杨颖发文告别《心动的信号4》,文字真诚引落泪,理智圈粉
  • yjjc是什么意思,饭圈说话太深奥,只有你不知道的文字密码
  • ps怎么移动文字(ps移动图片上已有的文字)
  • 5d3怎么样(佳能5D3文字测评)
    • 网站地图 | 联系我们
    • 声明:这就到-知道你所不知道登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述。文章内容仅供参考,不做权威认证,如若验证其真实性,请咨询相关权威专业人士。