【技术实现步骤摘要】
一种基于增强学习的图像描述对抗生成方法
[0001]本专利技术涉及计算机视觉与NLP的交叉
,尤其是涉及一种基于增强学习的图像描述对抗生成方法。
技术介绍
[0002]图像描述是一项新兴的研究任务。在过去的二十年中,自然语言处理(NLP)和计算机视觉(CV)领域在分析和生成文本以及图像理解方面取得了巨大的进步。虽然这两个领域都有一套基于机器学习和人工智能的方法,但是它们在过去的研究中是分开的,并且在科学界的交互并不多。然而近年来,随着人工智能领域的进步和深度学习模型的发展,学者们对语言和视觉信息的结合问题产生了越来越多的兴趣。与此同时,网络上出现了大量文字和视觉信息结合的数据,比如:带有标签的照片,报纸插图,以及社交媒体上的多模态信息。这些数据的出现,更加使得基于深度学习的图像描述模型受到越来越多的关注。
[0003]当前,图像描述模型的局限性在于所生成的描述往往由普通单词组成,因此许多图像具有相似的描述。图像中的独特性概念被忽略,这限制了图像描述的应用。现有图像描述方法的结果往往不具有区分性,生成的描述比较通用和死板,描述模型的能力有限。尽管可以使用辅助信息(例如在何处,何时何地拍摄照片)来生成个性化的描述,但是大多数图像没有类似信息。在生成描述的质量方面,早期的方法已经提出了各种模型和度量来改善描述的流畅性和相关性,以获得准确的结果。但是,这些描述在生成描述的独特性方面表现得并不是很好,即图像描述模型生成的描述在将该图像与其他相似图像区分开的方面表现不佳。
[0004]最近的一些工作开始关注 ...
【技术保护点】
【技术特征摘要】
1.一种基于增强学习的图像描述对抗生成方法,其特征在于包括如下步骤:S1,通过图像检索,为数据集中的待描述图像检索相似图像,所述数据集包括图像及其对应的一组文本描述;S2,构建基于注意力机制的图像描述生成网络,为待描述图像生成文本描述的过程中,引入注意力机制和长短期记忆网络,将长短期记忆网络的输出,结合提取的图像特征,经过注意力机制,计算损失,获得单词输出,通过各单词,得到生成网络生成的文本描述;S3,构建图像描述相似性配对判别网络,对输入的图像和文字描述,进行配对判别,根据判别网络输出是否配对的概率,作为强化学习的奖励值;S4,利用待描述图像及其标注配对的文本描述、生成网络生成的文本描述,及其相似图像的文本描述,通过判别网络进行配对判别,根据奖励值,使用对抗损失和强化学习的训练策略,对生成网络和判别网络进行联合迭代优化;S5,将待生成描述的图像,输入训练后的生成网络,为该图像生成文本描述。2.根据权利要求1所述的一种基于增强学习的图像描述对抗生成方法,其特征在于所述S2包括如下步骤:S21,提取图像特征a
i
;S22,为LSTM的输入,引入第一注意力机制;每层长短期记忆网络LSTM的输入为a
i
·
α,α表示第一注意力权重矩阵,用于记录a
i
每个像素位置获得的关注度,α由前一时期LSTM的隐变量输出与图像特征相乘的注意力权重获得,公式为:x
t
=a1·
W1a
i
a1=W
1h
h
t
‑1·
W
1a
a
i
其中,x
t
表示当前时期LSTM的输入,a1表示第一注意力权重矩阵,h
t
‑1表示前一时期LSTM的隐变量输出,a
i
表示图像特征,W1、W
1h
、W
1a
表示引入LSTM输入的第一注意力机制的可学习的权重矩阵;S23,为LSTM的输出,引入第二注意力机制,对文本描述进行解码;LSTM的每层输出为w
t
,是a
i
与该层隐变量h
t
经过注意力机制的结果,公式如下:w
t
=a2·
W2a
i
a2=W
2h
h
t
·
W
2a
a
i
其中,a2表示第二注意力权重矩阵,W2、W
2h
、W
2a
表示引入LSTM输出的第二注意力机制的可学习的权重矩阵。3.根据权利要求1所述的一种基于增强学习的图像描述对抗生成方法,其特征在于所述S3中的判别网络,对输入的图像,通过卷积网络,进行特征提取,对输入的文字描述,通过LSTM得到文字特征,对二者做内积,进行配对判别,通过全连接层进行特征融合,输出一个是否匹配的概率,作为强化学习的奖励值。4.根据权利要求1所述的一种基于增强学习的图像描述对抗生成方法,其特征在于...
【专利技术属性】
技术研发人员:王蕊,吕飞霄,李太豪,裴冠雄,
申请(专利权)人:中国科学院信息工程研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。