【技术实现步骤摘要】
一种基于复合图像语义的图像描述方法
[0001]本专利技术涉及一种基于复合图像语义的图像描述方法,可用于需要获取图像细节、提升精度的图像描述任务中,结合注意力机制有效地完成跨模态信息转化。
技术介绍
[0002]人类在日常生活中经常会遇到需要转换我们接收信息模态的问题,人类可以从不同的信息中提取出有用的进行思考,得出一个推断结论,而对于计算机来说却并不是一件简单的事。图像描述作为一项跨模态的任务,需要跨越图像与文本之间的语义鸿沟,近年提出的基于深度学习编码-解码框架(Seq2Seq)的图像描述生成方法采用卷积神经网络(CNN)作为编码器,能够有效地提取图像特征;采用循环神经网络(RNN)作为解码器,利用其动态性、时序性的特点生成连续生动的文字描述。
[0003]目前也有许多使用了多种语义特征的研究方法,如Quanzeng You等结合了top
‑
down和bottom
‑
up的局部图像特征,利用注意力机制进行融合,但是一定程度上也造成了信息的冗余产生噪声;Peter Anderso ...
【技术保护点】
【技术特征摘要】
1.一种基于复合图像语义的图像描述方法,其特征在于,具体步骤如下:步骤(1):利用ResNet101网络提取图像特征信息v;步骤(2):利用来自DeepLabv3的空洞空间卷积池化金字塔ASPP结构,以不同采样率的空洞卷积并行采样得到图像特征q;步骤(3):通过在MS COCO数据集上预训练好的目标识别网络YOLOv3,在编码阶段对图像并行地提取出目标框的标签l
cls
与尺寸信息l
box
;步骤(4):设计融合视觉与文本的注意力机制,将图像的中间层、高层特征信息与语义信息联系起来。2.根据权利要求1所述的一种基于复合图像语义的图像描述方法,其特征在于:所述步骤(1)具体实现为:采用在ImageNet上预训练好的ResNet101网络对输入图像进行编码,图像经过卷积层后取舍弃分类层的结果,编码器产生的最终图像特征v的大小为14x14,共2048个通道。3.根据权利要求1所述的一种基于复合图像语义的图像描述方法,其特征在于:所述步骤(2)具体实现如下:图像卷积后加入来自DeepLabv3的空洞空间卷积池化金字塔ASPP结构;随着空洞卷积采样率变大,空洞卷积的权值变得稀疏,与DeepLabv2相比去掉了rate=24的3*3卷积,增加了1*1卷积和全局池化模块;在步骤(1)完成得到v后以不同采样率的空洞卷积对其采样,得到图像融合了不同特征层的细节特征q,用包含足量局部信息、边缘信息的特征图来补充细节信息。4.根据权利要求1所述的一种基于复合图像语义的图像描述方法,其特征在于:所述步骤(3)中,包括YOLOv3的预训练与标签信息转化两部分;在MS COCO数据集上进行训练,经过100个epoch后,mean Average Precision即mAP达到了0.2328;有效地对图像中的物体进行分类;选择表现最好的模型作为编码器结构中并行的目标识别网络,与卷积神经网络同时对图像进行处理,设定识别类准确率阈值为0.8,大于阈值的类别将被留下;利用得到的预训练模型对图像中的物体进行框取,满足阈值要求的目标框将被筛选出来,同时得到了目标框的标签l
cls
和面积S
box
;目标框的面积并不一定代表了物体的重要程度,但是能作为后续学习其与注意力权重之间的关系依据;标签l
cls
则是将视觉信息转化为文本信息关键的一步,在拿到一张全新图片时,标签的准确提取能定位出主要物体的类别,并能够提升描述语句的准确性,是有效的语义信息;关于语义信息的利用,首先转化成一种便于后续操作的语义信息;将其输入进长短期记忆网络,得到最后一个时间步的隐藏层作为语义信息;过程如下公式所示:s=LSTMcell(l
cls
,l
box
)l
box
=P
cls
×
S
box
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。