一种基于复合图像语义的图像描述方法技术

技术编号：30405512 阅读：34 留言：0更新日期：2021-10-20 11:08

本发明专利技术涉及一种基于复合图像语义的图像描述方法，包括：在图像编码部分，获取图像中的多种语义信息，包括图像经过卷积后的语义信息、边缘信息，还有经过目标识别网络后得到的标签与尺寸信息；设计融合注意力机制，将图像边缘特征与深层语义特征进行融合，结合前一时刻单词有效进行图像区域的重点转移，使得图像的细节信息保留完整；其次结合图像中目标框的标签与尺寸所形成的语义信息再次融合，在语句生成时有重点地突出文本语义信息。本方法为网络提供了更多语义信息，既完善了图像的细节信息，还更加准确地定位了目标体的分类，避免了语义信息丢失，两次注意力的转移有效地融合图像与文本之间的信息，完成不同模态的转换，从而高效准确地完成图像描述任务。而高效准确地完成图像描述任务。而高效准确地完成图像描述任务。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于复合图像语义的图像描述方法

[0001]本专利技术涉及一种基于复合图像语义的图像描述方法，可用于需要获取图像细节、提升精度的图像描述任务中，结合注意力机制有效地完成跨模态信息转化。

技术介绍

[0002]人类在日常生活中经常会遇到需要转换我们接收信息模态的问题，人类可以从不同的信息中提取出有用的进行思考，得出一个推断结论，而对于计算机来说却并不是一件简单的事。图像描述作为一项跨模态的任务，需要跨越图像与文本之间的语义鸿沟，近年提出的基于深度学习编码－解码框架(Seq2Seq)的图像描述生成方法采用卷积神经网络(CNN)作为编码器，能够有效地提取图像特征；采用循环神经网络(RNN)作为解码器，利用其动态性、时序性的特点生成连续生动的文字描述。
[0003]目前也有许多使用了多种语义特征的研究方法，如Quanzeng You等结合了top
‑
down和bottom
‑
up的局部图像特征，利用注意力机制进行融合，但是一定程度上也造成了信息的冗余产生噪声；Peter Anderso...

【技术保护点】

【技术特征摘要】
1.一种基于复合图像语义的图像描述方法，其特征在于，具体步骤如下：步骤(1)：利用ResNet101网络提取图像特征信息v；步骤(2)：利用来自DeepLabv3的空洞空间卷积池化金字塔ASPP结构，以不同采样率的空洞卷积并行采样得到图像特征q；步骤(3)：通过在MS COCO数据集上预训练好的目标识别网络YOLOv3，在编码阶段对图像并行地提取出目标框的标签l
cls
与尺寸信息l
box
；步骤(4)：设计融合视觉与文本的注意力机制，将图像的中间层、高层特征信息与语义信息联系起来。2.根据权利要求1所述的一种基于复合图像语义的图像描述方法，其特征在于：所述步骤(1)具体实现为：采用在ImageNet上预训练好的ResNet101网络对输入图像进行编码，图像经过卷积层后取舍弃分类层的结果，编码器产生的最终图像特征v的大小为14x14，共2048个通道。3.根据权利要求1所述的一种基于复合图像语义的图像描述方法，其特征在于：所述步骤(2)具体实现如下：图像卷积后加入来自DeepLabv3的空洞空间卷积池化金字塔ASPP结构；随着空洞卷积采样率变大，空洞卷积的权值变得稀疏，与DeepLabv2相比去掉了rate＝24的3*3卷积，增加了1*1卷积和全局池化模块；在步骤(1)完成得到v后以不同采样率的空洞卷积对其采样，得到图像融合了不同特征层的细节特征q，用包含足量局部信息、边缘信息的特征图来补充细节信息。4.根据权利要求1所述的一种基于复合图像语义的图像描述方法，其特征在于：所述步骤(3)中，包括YOLOv3的预训练与标签信息转化两部分；在MS COCO数据集上进行训练，经过100个epoch后，mean Average Precision即mAP达到了0.2328；有效地对图像中的物体进行分类；选择表现最好的模型作为编码器结构中并行的目标识别网络，与卷积神经网络同时对图像进行处理，设定识别类准确率阈值为0.8，大于阈值的类别将被留下；利用得到的预训练模型对图像中的物体进行框取，满足阈值要求的目标框将被筛选出来，同时得到了目标框的标签l
cls
和面积S
box
；目标框的面积并不一定代表了物体的重要程度，但是能作为后续学习其与注意力权重之间的关系依据；标签l
cls
则是将视觉信息转化为文本信息关键的一步，在拿到一张全新图片时，标签的准确提取能定位出主要物体的类别，并能够提升描述语句的准确性，是有效的语义信息；关于语义信息的利用，首先转化成一种便于后续操作的语义信息；将其输入进长短期记忆网络，得到最后一个时间步的隐藏层作为语义信息；过程如下公式所示：s＝LSTMcell(l
cls
,l
box
)l
box
＝P
cls
×
S
box
...

【专利技术属性】
技术研发人员：王岩，李沁，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人