一种基于增强学习的图像描述对抗生成方法技术

技术编号:32210078 阅读:16 留言:0更新日期:2022-02-09 17:15
本发明专利技术公开了一种基于增强学习的图像描述对抗生成方法,包括如下步骤:S1,根据待描述图像检索相似图像及其文本描述;S2,构建基于注意力机制的图像描述生成网络,在待描述图像生成文本时,引入注意力机制和长短期记忆网络,将长短期记忆网络的输出,结合提取的图像特征,经过注意力机制,计算损失,得到生成的文本描述;S3,构建图像描述相似性配对判别网络;S4,利用待描述图像及其标注配对的文本描述、生成网络生成的文本描述,及其相似图像的文本描述,通过判别网络进行配对判别,根据判别网络输出的奖励值,对生成网络和判别网络进行联合迭代优化;S5,将待生成描述的图像,输入训练后的生成网络,生成文本描述。生成文本描述。生成文本描述。

【技术实现步骤摘要】
一种基于增强学习的图像描述对抗生成方法


[0001]本专利技术涉及计算机视觉与NLP的交叉
,尤其是涉及一种基于增强学习的图像描述对抗生成方法。

技术介绍

[0002]图像描述是一项新兴的研究任务。在过去的二十年中,自然语言处理(NLP)和计算机视觉(CV)领域在分析和生成文本以及图像理解方面取得了巨大的进步。虽然这两个领域都有一套基于机器学习和人工智能的方法,但是它们在过去的研究中是分开的,并且在科学界的交互并不多。然而近年来,随着人工智能领域的进步和深度学习模型的发展,学者们对语言和视觉信息的结合问题产生了越来越多的兴趣。与此同时,网络上出现了大量文字和视觉信息结合的数据,比如:带有标签的照片,报纸插图,以及社交媒体上的多模态信息。这些数据的出现,更加使得基于深度学习的图像描述模型受到越来越多的关注。
[0003]当前,图像描述模型的局限性在于所生成的描述往往由普通单词组成,因此许多图像具有相似的描述。图像中的独特性概念被忽略,这限制了图像描述的应用。现有图像描述方法的结果往往不具有区分性,生成的描述比较通用和死板,描述模型的能力有限。尽管可以使用辅助信息(例如在何处,何时何地拍摄照片)来生成个性化的描述,但是大多数图像没有类似信息。在生成描述的质量方面,早期的方法已经提出了各种模型和度量来改善描述的流畅性和相关性,以获得准确的结果。但是,这些描述在生成描述的独特性方面表现得并不是很好,即图像描述模型生成的描述在将该图像与其他相似图像区分开的方面表现不佳。
[0004]最近的一些工作开始关注图像描述的独特性,并受到计算机视觉方面的启发,开始使用深度学习的方法解决存在的问题。例如,通过条件生成式对抗网络(GAN)生成更加独特的描述,通过自我检索和两阶段长短期记忆模型(LSTM)等技术来产生更多多样的描述性描述。生成式对抗网络的方法通过对抗学习,虽然改善了所生成描述的多样性,但牺牲了评估标准上的总体性能,在生成描述的准确性和流畅性方面表现难以满足当前的期待。
[0005]与图像描述的相似性和独特性相关的图像检索,近年来也受到了较多的关注。近年来表现较好的图像检索模型,将处于两个空间的图像和描述,按照语义关系映射到同一空间中,可以使得相似语义的图像和描述的距离更加接近。其中表现较好的方法是VSE++,它分析了难样本并把图像和描述映射到同一空间。基于这类工作,图像描述的多样性和独特性便可以顺利地度量和区分。这种方法使得图像描述工作更加智能和灵活,出现了一些以图像检索为基础的图像描述模型。这样以图像检索指导的描述框架不仅可以更好地区分不同图像的描述,而且可以从其他相似图像中获得特征信息,从相似数据中提取阴性样本可以进一步提高图像描述的独特性和区分性,不需要更多的额外注释。图像检索的进步对图像描述独特性的研究产生了很大的帮助,但图像描述中的描述生成独特性,仍有待提高。

技术实现思路

[0006]为解决现有技术的不足,实现提高图像描述的描述生成独特性的目的,本专利技术采用如下的技术方案:
[0007]一种基于增强学习的图像描述对抗生成方法,包括如下步骤:
[0008]S1,通过图像检索,为数据集中的待描述图像检索相似图像,所述数据集包括图像及其对应的一组文本描述;
[0009]S2,构建基于注意力机制的图像描述生成网络,为待描述图像生成文本描述的过程中,引入注意力机制和长短期记忆网络,将长短期记忆网络的输出,结合提取的图像特征,经过注意力机制和全卷积网络,计算交叉熵损失,获得单词输出,通过各单词,得到生成网络生成的文本描述;
[0010]S3,构建图像描述相似性配对判别网络,对输入的图像和文字描述,进行配对判别,根据判别网络输出是否配对的概率,作为强化学习的奖励值;
[0011]S4,利用待描述图像及其标注配对的文本描述、生成网络生成的文本描述,及其相似图像的文本描述,通过判别网络进行配对判别,根据奖励值,使用对抗损失和强化学习的训练策略,对生成网络和判别网络进行联合迭代优化;
[0012]S5,将待生成描述的图像,输入训练后的生成网络,为该图像生成文本描述。
[0013]进一步地,所述S2包括如下步骤:
[0014]S21,提取图像特征a
i

[0015]S22,为LSTM的输入,引入第一注意力机制;每层长短期记忆网络LSTM的输入为a
i
·
α,α表示第一注意力权重矩阵,用于记录a
i
每个像素位置获得的关注度,α由前一时期LSTM的隐变量输出与图像特征相乘的注意力权重获得,公式为:
[0016]x
t
=a1·
W1a
i
[0017]a1=W
1h
h
t
‑1·
W
1a
a
i
[0018]其中,x
t
表示当前时期LSTM的输入,a1表示第一注意力权重矩阵,h
t
‑1表示前一时期LSTM的隐变量输出,a
i
表示图像特征,W1、W
1h
、W
1a
表示引入LSTM输入的第一注意力机制的可学习的权重矩阵;
[0019]S23,为LSTM的输出,引入第二注意力机制,对文本描述进行解码;LSTM的每层输出为w
t
,是a
i
与该层隐变量h
t
经过注意力机制的结果,公式如下:
[0020]w
t
=a2·
W2a
i
[0021]a2=W
2h
h
t
·
W
2a
a
i
[0022]其中,a2表示第二注意力权重矩阵,W2、W
2h
、W
2a
表示引入LSTM输出的第二注意力机制的可学习的权重矩阵。
[0023]进一步地,所述S3中的判别网络,对输入的图像,通过卷积网络,进行特征提取,对输入的文字描述,通过LSTM得到文字特征,对二者做内积,进行配对判别,通过全连接层进行特征融合,输出一个是否匹配的概率,作为强化学习的奖励值。
[0024]进一步地,所述S4中,判别网络的目标损失函数:
[0025][0026]其中I表示数据集中的图像,x表示与图像匹配的文本描述,S
r
表示数据集中匹配的图像与文本描述对,D(
·
)表示判别网络,E[
·
]表示对[
·
]中求均值;表示生成网络生成的文本描述,S
f
表示图像与生成网络生成的文本描述对;表示相似图像的文本描述,S
w
表示数据集中不匹配的图像与文本描述对,λ1、λ2、λ3、β为超参数。
[0027]第一项确保图像和描述的匹配,第二个项使得判别网络区分标注描述和生成的描述,推动它生成更自然的描述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于增强学习的图像描述对抗生成方法,其特征在于包括如下步骤:S1,通过图像检索,为数据集中的待描述图像检索相似图像,所述数据集包括图像及其对应的一组文本描述;S2,构建基于注意力机制的图像描述生成网络,为待描述图像生成文本描述的过程中,引入注意力机制和长短期记忆网络,将长短期记忆网络的输出,结合提取的图像特征,经过注意力机制,计算损失,获得单词输出,通过各单词,得到生成网络生成的文本描述;S3,构建图像描述相似性配对判别网络,对输入的图像和文字描述,进行配对判别,根据判别网络输出是否配对的概率,作为强化学习的奖励值;S4,利用待描述图像及其标注配对的文本描述、生成网络生成的文本描述,及其相似图像的文本描述,通过判别网络进行配对判别,根据奖励值,使用对抗损失和强化学习的训练策略,对生成网络和判别网络进行联合迭代优化;S5,将待生成描述的图像,输入训练后的生成网络,为该图像生成文本描述。2.根据权利要求1所述的一种基于增强学习的图像描述对抗生成方法,其特征在于所述S2包括如下步骤:S21,提取图像特征a
i
;S22,为LSTM的输入,引入第一注意力机制;每层长短期记忆网络LSTM的输入为a
i
·
α,α表示第一注意力权重矩阵,用于记录a
i
每个像素位置获得的关注度,α由前一时期LSTM的隐变量输出与图像特征相乘的注意力权重获得,公式为:x
t
=a1·
W1a
i
a1=W
1h
h
t
‑1·
W
1a
a
i
其中,x
t
表示当前时期LSTM的输入,a1表示第一注意力权重矩阵,h
t
‑1表示前一时期LSTM的隐变量输出,a
i
表示图像特征,W1、W
1h
、W
1a
表示引入LSTM输入的第一注意力机制的可学习的权重矩阵;S23,为LSTM的输出,引入第二注意力机制,对文本描述进行解码;LSTM的每层输出为w
t
,是a
i
与该层隐变量h
t
经过注意力机制的结果,公式如下:w
t
=a2·
W2a
i
a2=W
2h
h
t
·
W
2a
a
i
其中,a2表示第二注意力权重矩阵,W2、W
2h
、W
2a
表示引入LSTM输出的第二注意力机制的可学习的权重矩阵。3.根据权利要求1所述的一种基于增强学习的图像描述对抗生成方法,其特征在于所述S3中的判别网络,对输入的图像,通过卷积网络,进行特征提取,对输入的文字描述,通过LSTM得到文字特征,对二者做内积,进行配对判别,通过全连接层进行特征融合,输出一个是否匹配的概率,作为强化学习的奖励值。4.根据权利要求1所述的一种基于增强学习的图像描述对抗生成方法,其特征在于...

【专利技术属性】
技术研发人员:王蕊吕飞霄李太豪裴冠雄
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1