多维度注意力和语义再生的文本生成图像模型

时间:2022-05-17 22:29:38
作者:庄兴旺,丁岳伟
关键字:文本生成图像,生成对抗网络,语义一致,注意力,语义文本再生
DOI:10.3969/j.issn.1673-629X.2020.12.005
查看次数:592

如需要完整文档点击下方 "点击下载文档" 按钮

文本生成图像是结合计算机视觉和自然语言处理两个领域的综合性任务,从给定的文本描述生成图像有两个目标:视觉真实性和语义一致性。虽然在使用生成对抗网络(GAN)生成高质量和视觉逼真的图像方面取得了显著进展,但确保文本描述和视觉内容之间的语义一致性仍然是非常具有挑战性的。 目前的方法由于文本和图像形式的多样性,仅在单词级别使用注意力并不能确保全局语义的一致性。 因此,在 MirrorGAN 的基础上提出了一种改进的多维度的注意力协同模块(MCAM)和语义文本再生模块(STRM)来解决这些问题。 MCAM 使用了更为先进的 BERT 模型来进行文本处理,STRM 用于从生成的图像中重新生成文本描述,该图像在语义上与给定的文本描述对齐,使生成的图像更加贴合语义。最后,形成了基于多维度注意力以及语义文本再生的生成对抗网络模型(MirrorGAN++)。 通过对两个公共基准数据集的深入实验,证明了 MirrorGAN++优于其他方法。

如需要完整文档点击下方 "点击下载文档" 按钮

多维度注意力和语义再生的文本生成图像模型
《多维度注意力和语义再生的文本生成图像模型》
完整文档 下载到本地,方便收藏和查阅
文件号:061885
多维度注意力和语义再生的文本生成图像模型
点击下载文档
多维度注意力和语义再生的文本生成图像模型

点击下载 文件号:061885(点击复制) 公众号(点击复制)

x