一种基于复合图像语义的图像描述方法技术

技术编号:30405512 阅读:34 留言:0更新日期:2021-10-20 11:08
本发明专利技术涉及一种基于复合图像语义的图像描述方法,包括:在图像编码部分,获取图像中的多种语义信息,包括图像经过卷积后的语义信息、边缘信息,还有经过目标识别网络后得到的标签与尺寸信息;设计融合注意力机制,将图像边缘特征与深层语义特征进行融合,结合前一时刻单词有效进行图像区域的重点转移,使得图像的细节信息保留完整;其次结合图像中目标框的标签与尺寸所形成的语义信息再次融合,在语句生成时有重点地突出文本语义信息。本方法为网络提供了更多语义信息,既完善了图像的细节信息,还更加准确地定位了目标体的分类,避免了语义信息丢失,两次注意力的转移有效地融合图像与文本之间的信息,完成不同模态的转换,从而高效准确地完成图像描述任务。而高效准确地完成图像描述任务。而高效准确地完成图像描述任务。

【技术实现步骤摘要】
一种基于复合图像语义的图像描述方法


[0001]本专利技术涉及一种基于复合图像语义的图像描述方法,可用于需要获取图像细节、提升精度的图像描述任务中,结合注意力机制有效地完成跨模态信息转化。

技术介绍

[0002]人类在日常生活中经常会遇到需要转换我们接收信息模态的问题,人类可以从不同的信息中提取出有用的进行思考,得出一个推断结论,而对于计算机来说却并不是一件简单的事。图像描述作为一项跨模态的任务,需要跨越图像与文本之间的语义鸿沟,近年提出的基于深度学习编码-解码框架(Seq2Seq)的图像描述生成方法采用卷积神经网络(CNN)作为编码器,能够有效地提取图像特征;采用循环神经网络(RNN)作为解码器,利用其动态性、时序性的特点生成连续生动的文字描述。
[0003]目前也有许多使用了多种语义特征的研究方法,如Quanzeng You等结合了top

down和bottom

up的局部图像特征,利用注意力机制进行融合,但是一定程度上也造成了信息的冗余产生噪声;Peter Anderson等利用Faster本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于复合图像语义的图像描述方法,其特征在于,具体步骤如下:步骤(1):利用ResNet101网络提取图像特征信息v;步骤(2):利用来自DeepLabv3的空洞空间卷积池化金字塔ASPP结构,以不同采样率的空洞卷积并行采样得到图像特征q;步骤(3):通过在MS COCO数据集上预训练好的目标识别网络YOLOv3,在编码阶段对图像并行地提取出目标框的标签l
cls
与尺寸信息l
box
;步骤(4):设计融合视觉与文本的注意力机制,将图像的中间层、高层特征信息与语义信息联系起来。2.根据权利要求1所述的一种基于复合图像语义的图像描述方法,其特征在于:所述步骤(1)具体实现为:采用在ImageNet上预训练好的ResNet101网络对输入图像进行编码,图像经过卷积层后取舍弃分类层的结果,编码器产生的最终图像特征v的大小为14x14,共2048个通道。3.根据权利要求1所述的一种基于复合图像语义的图像描述方法,其特征在于:所述步骤(2)具体实现如下:图像卷积后加入来自DeepLabv3的空洞空间卷积池化金字塔ASPP结构;随着空洞卷积采样率变大,空洞卷积的权值变得稀疏,与DeepLabv2相比去掉了rate=24的3*3卷积,增加了1*1卷积和全局池化模块;在步骤(1)完成得到v后以不同采样率的空洞卷积对其采样,得到图像融合了不同特征层的细节特征q,用包含足量局部信息、边缘信息的特征图来补充细节信息。4.根据权利要求1所述的一种基于复合图像语义的图像描述方法,其特征在于:所述步骤(3)中,包括YOLOv3的预训练与标签信息转化两部分;在MS COCO数据集上进行训练,经过100个epoch后,mean Average Precision即mAP达到了0.2328;有效地对图像中的物体进行分类;选择表现最好的模型作为编码器结构中并行的目标识别网络,与卷积神经网络同时对图像进行处理,设定识别类准确率阈值为0.8,大于阈值的类别将被留下;利用得到的预训练模型对图像中的物体进行框取,满足阈值要求的目标框将被筛选出来,同时得到了目标框的标签l
cls
和面积S
box
;目标框的面积并不一定代表了物体的重要程度,但是能作为后续学习其与注意力权重之间的关系依据;标签l
cls
则是将视觉信息转化为文本信息关键的一步,在拿到一张全新图片时,标签的准确提取能定位出主要物体的类别,并能够提升描述语句的准确性,是有效的语义信息;关于语义信息的利用,首先转化成一种便于后续操作的语义信息;将其输入进长短期记忆网络,得到最后一个时间步的隐藏层作为语义信息;过程如下公式所示:s=LSTMcell(l
cls
,l
box
)l
box
=P
cls
×
S
box
...

【专利技术属性】
技术研发人员:王岩李沁
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1