基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法技术

技术编号:26794267 阅读:35 留言:0更新日期:2020-12-22 17:10
本发明专利技术公开了一种基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法,它解决了在基于强化学习奖励机制的图像字幕生成方法中,每个生成单词不同重要性的问题。本发明专利技术首次提出了一种基于多粒度奖励机制的多注意力融合网络用于图像字幕生成,它包括多注意力融合模型、单词重要性重评估网络和标签检索网络。多注意力融合模型用作基于强化学习的图像字幕方法的基线;单词重要性重评估网络通过估算生成标题中每个单词的不同重要性而被用于奖励重估;标签检索网络能够从一批字幕中检索相应的真实标签作为检索奖励,然后通过训练该网络以最大化奖励的方式生成更好的字幕。本发明专利技术在MSCOCO数据集上进行了大量的实验验证,取得了非常有竞争力的评价结果。

【技术实现步骤摘要】
基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法
本专利技术属于图像字幕自动生成方法,涉及计算机视觉和自然语言处理的

技术介绍
图像字幕(imagecaption)的目标是自动生成给定图像的自然语言描述。目前这项任务面临着巨大的挑战,一方面,计算机必须从多层次的视觉特征中全面了解图像内容;另一方面,图像字幕生成算法需要逐步将粗略语义概念修改为类似于人的自然语言描述。近些年,深度学习相关技术(包括注意力机制和强化学习)的进步显著提高了字幕生成的质量,而这其中编码-解码框架是图像字幕生成的主流方法。Vinyals等人利用空间合并的CNN特征图生成字幕,将整个图像压缩成静态表示,再用注意力机制通过学习自适应地关注图像的区域来改善字幕的性能,但是只有单个LSTM用作可视信息处理程序以及语言生成器,语言生成器被同时可视化处理程序削弱。PeterAnderson等人提出了具有两个独立LSTM层的自上而下架构:第一个LSTM层充当自上而下的视觉注意模型,第二个LSTM层充当语言生成器。上面提到的所有图像字幕方法均采用CNN最后卷积层的本文档来自技高网...

【技术保护点】
1.基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法,其特征在于,所述方法包括以下步骤:/nS1.构建多注意力融合模型。/nS2.构建基于强化学习奖励机制的单词重要性重评估网络。/nS3.结合强化学习奖励机制,构建标签检索网络。/nS4.结合S1中的模型、S2中的单词重要性重评估网络和S3中的标签检索网络构建基于多粒度奖励机制的多注意力融合网络架构。/nS5.基于多粒度奖励机制的多注意力融合网络的训练和字幕生成。/n

【技术特征摘要】
1.基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法,其特征在于,所述方法包括以下步骤:
S1.构建多注意力融合模型。
S2.构建基于强化学习奖励机制的单词重要性重评估网络。
S3.结合强化学习奖励机制,构建标签检索网络。
S4.结合S1中的模型、S2中的单词重要性重评估网络和S3中的标签检索网络构建基于多粒度奖励机制的多注意力融合网络架构。
S5.基于多粒度奖励机制的多注意力融合网络的训练和字幕生成。


2.根据权利要求1所述的基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法,其特征在于,所述S1的具体过程为:
采用的是一个经典网络结构,它根据每个时间步t的LSTM隐藏状态ht产生归一化注意权重αt。αt用于参与图像特征的不同空间Att作为图像的最终表示(A):



αt=softmax(at)(2)



其中,Wa,Ua,是学习参数。



其中,h2是第二LSTM的输出,其由卷积层的图像信息和生成的序列的内容组成。产生h2的过程可以通过以下方式给出:












最后,通过非线性softmax函数给出输出单词的概率:





3.根据权利要求1所述的基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法,其特征在于,所述S2的具体过程为:
REN将生成的句子S作为输入,然后,句子由带有具有注意力网络和平均池化层的RNN处理,词嵌入向量由带有注意力的句子嵌入向量和池化之后的句子嵌入向量连接而成,作为生成字幕的综合表示,然后应用两个全连接层和sigmoid变换获得不同单词的权重Wt。在数学上,损失函数可以形式化为(11):
Wrt=RWt+R-b(10)



其中,Wi是REN的输出权重,θ是图像字幕网络的参数,表示生成的句子的不同单词。
为了利用基于指标的奖励(CIDEr)并约束句子空间,在CIDEr优化之后,采用词级奖励来微调字幕网络,此外,为了同时优化REN,我们将REN的更新定义为具有奖励R-b的另一个RL过程。我们观察到R-b太小而导致REN的梯度较弱,因此设置超参数γ以增强梯度。,类似地,可以通过强化学习算法通过以下损失函数更新REN:





4.根据权利要求1所述的基于多粒度奖励机制的多注意力融合网络的图像字幕生成方法,其特征在于,所述S3的具...

【专利技术属性】
技术研发人员:王雷全袁韶祖段海龙吴杰路静吴春雷
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1