一种基于注意力融合的图像描述生成方法技术

技术编号:24997401 阅读:41 留言:0更新日期:2020-07-24 17:59
本发明专利技术提供的是一种基于注意力融合的图像描述生成方法。使用ResNet‑101作为Faster R‑CNN特征提取网络,基于空间注意力和高层语义注意力融合的图像描述模型使用Faster R‑CNN作为编码器提取图像中物体和显著视觉区域的位置和名称,将目标对应的特征向量和名称分别作为空间注意力机制和高层语义注意力机制的输入,经过注意力模型整合处理后送入解码器,最终由解码器生成单词序列。本发明专利技术克服了直接划分图像得到的空间注意力不能准确地提取图像中目标对应特征的问题,提高图像描述的效果。

【技术实现步骤摘要】
一种基于注意力融合的图像描述生成方法
本专利技术涉及的是一种语言处理技术和图像描述方法,具体涉及一种基于注意力融合的图像描述生成方法。
技术介绍
图像描述是计算机视觉和自然语言处理领域交叉的研究课题,是人工智能中的研究热点,与图像分类、目标检测等图像理解任务不同,图像描述不仅要识别出图像中的目标,而且要理解目标之间的关系,并使用自然语言正确地表达出来,因此图像描述具有很大挑战性。图像描述在图像检索、人机交互以及智能监控等领域具有广阔的应用前景。近年来,图像描述是人工智能领域的一个研究热点,旨在让机器变得更智能,图像描述能够让机器像人一样看懂理解图像,从而实现基于视觉的人机交互,提高人与机器交流的效率。
技术实现思路
本专利技术的目的在于提供一种能准确地提取图像中目标对应特征,提高图像描述的准确率的基于注意力融合的图像描述生成方法。本专利技术的目的是这样实现的:使用ResNet-101作为FasterR-CNN特征提取网络,基于空间注意力和高层语义注意力融合的图像描述模型使用FasterR-CNN作为编码器提取本文档来自技高网...

【技术保护点】
1.一种基于注意力融合的图像描述生成方法,其特征是:使用ResNet-101作为FasterR-CNN特征提取网络,基于空间注意力和高层语义注意力融合的图像描述模型使用FasterR-CNN作为编码器提取图像中物体和显著视觉区域的位置和名称,将目标对应的特征向量和名称分别作为空间注意力机制和高层语义注意力机制的输入,经过注意力模型整合处理后送入解码器,最终由解码器生成单词序列。/n

【技术特征摘要】
1.一种基于注意力融合的图像描述生成方法,其特征是:使用ResNet-101作为FasterR-CNN特征提取网络,基于空间注意力和高层语义注意力融合的图像描述模型使用FasterR-CNN作为编码器提取图像中物体和显著视觉区域的位置和名称,将目标对应的特征向量和名称分别作为空间注意力机制和高层语义注意力机制的输入,经过注意力模型整合处理后送入解码器,最终由解码器生成单词序列。


2.根据权利要求1所述的基于注意力融合的图像描述生成方法,其特征是:
步骤1、FasterR-CNN物体检测模块作为编码器用于对输入的图像进行目标物体检测,并同时检测出图像中目标物体的位置和名词属性,将其分别作为高层语义注意力和空间注意力来同时指导单词序列的生成;
步骤2、使用FasterR-CNN模型对输入图像进行检测,对其输出使用非极大值抑制,并在其中筛选置信度大于0.3的目标作为注意力机制的输入;对于被检测到的目标物体,其空间位置对应在ResNet-101最后一层卷积层的特征图,将经过平均池化处理的图像特征向量作为空间注意机制的输入,其名称属性经过词嵌入表示为512维的名称属性向量作为高层语义注意力的输入;
步骤3、将ResNet-101最后一层卷积层的特征图进行平均池化处理后的图像全局特征向量作为编码器初始时刻时的输入,图像中目标对应的图像特征向量和名称属性向量经过注意力机制的分配在解码器生成单词的过程中来动态地指导单词序列的生成;
步骤4、FasterR-CNN同时检测提供空间注意力和高层语义注意力,在Fast...

【专利技术属性】
技术研发人员:徐立芳田朋莫宏伟姜来浩许贵亮杨帆
申请(专利权)人:哈尔滨工程大学
类型:发明
国别省市:黑龙;23

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1