一种跨层多模型特征融合与基于卷积解码的图像描述方法技术

技术编号:26171256 阅读:38 留言:0更新日期:2020-10-31 13:42
本发明专利技术提供一种跨层多模型特征融合与基于卷积解码的图像描述方法,涉及计算机视觉和自然语言处理领域。该跨层多模型特征融合与基于卷积解码的图像描述方法,包括以下步骤:S1.得到嵌入向量序列和最终文本特征;S2.计算得到视觉与文本融合匹配的注意力向量;S3.将注意力向量和文本特征向量和进行相加融合;S4.生成一个完整的描述句子。通过使用跨层多模型特征融合,有效弥补低层图像特征信息的丢失,从而获得更加细节的图像特征及学习到更加详细的描述句子,该模型能够有效提取和保存复杂背景图像中的语义信息,且具有处理长序列单词的能力,对图像内容的描述更准确、信息表达更丰富,值得大力推广。

【技术实现步骤摘要】
一种跨层多模型特征融合与基于卷积解码的图像描述方法
本专利技术涉及计算机视觉和自然语言处理领域,具体为一种跨层多模型特征融合与基于卷积解码的图像描述方法。
技术介绍
图像作为信息的主要载体之一,已越来越多的被人类共享,如何让计算机根据图像内容生成在语法上正确且语义上合理的自然语言句子显得至关重要,不同于目标检测、图像分类等较为简单的计算机视觉任务,图像描述属于更高层视觉理解,它不仅需要对图像中的物体和场景进行识别,还需要对物体与物体、物体与场景之间的关系进行表达,同时要求所生成的描述语句在语法和语义上都能够达到人类的标准,传统的图像描述方法分为两种:一是模板的方法,它将检测到的图像目标信息填入结构固定的句子模板中,二是基于检索的方法,它通过检索相似的图像,将已有的图像信息转移到待描述的图像上,不同于传统的动作识别方法,深度学习的方法基于卷积神经网络和循环神经网络,使用“编解码”的方式生成图像描述,使得描述句子的质量更高,生成图像的自然语言描述在实际生活中有着非常广泛的应用,例如,智能人机交互、幼儿早教、信息检索、视觉障碍者协助等,随着深度神经网本文档来自技高网...

【技术保护点】
1.一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:包括以下步骤:/nS1.首先在视觉模块,对单模型中实现低层与高层的跨层图像特征融合,然后再将多个视觉特征提取模型得到的特征图进行平均融合,同时将图像所对应的句子中包含的每个单词映射到具有D

【技术特征摘要】
20200701 CN 20201062910591.一种跨层多模型特征融合与基于卷积解码的图像描述方法,其特征在于:包括以下步骤:
S1.首先在视觉模块,对单模型中实现低层与高层的跨层图像特征融合,然后再将多个视觉特征提取模型得到的特征图进行平均融合,同时将图像所对应的句子中包含的每个单词映射到具有De维度的嵌入空间中,得到它们的嵌入向量序列,然后经过6层因果卷积操作获得最终文本特征;
S2.将S1得到的视觉特征向量和文本特征向量注入到Attention模块中,通过构造分值图,计算得到视觉与文本融合匹配的注意力向量,并以此将视觉模块和语言模块连接起来;
S3.然后将S2中具有文本信息与图像不同区域之间相关性的注意力向量和S1中得到的文本特征向量和进行相加融合;
S4.再将S3得到的结果经过激活函数后输入另一个1×1的卷积层,其通道数为单词本的大小,最后通过softmax层得...

【专利技术属性】
技术研发人员:罗会兰岳亮亮陈鸿坤
申请(专利权)人:江西理工大学
类型:发明
国别省市:江西;36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1