基于图像显著性与深度注意力网络的图像密集描述方法技术

技术编号：38147829 阅读：7 留言：0更新日期：2023-07-13 09:11

本发明专利技术提出了一种基于图像显著性与深度注意力网络的图像密集描述方法，属于计算机视觉与自然语言处理的交叉技术应用领域。S1、基于图像显著性分析获得图像的关注区域及关注区域掩膜；S2、对图像进行编码，得到图像特征向量；S3、将图像特征向量和关注区域掩膜输入解码器，生成描述语句。模型在训练时采用传统密集描述所使用的矩形区域作为掩模，配合描述语料计算推理结果的交叉熵损失，使用梯度下降方法更新参数，找到最优模型，使其能够对特定区域进行理解和描述。域进行理解和描述。域进行理解和描述。

全部详细技术资料下载

【技术实现步骤摘要】
基于图像显著性与深度注意力网络的图像密集描述方法

[0001]本专利技术属于计算机视觉与自然语言处理
，尤其涉及基于图像显著性与深度注意力网络的图像密集描述方法。

技术介绍

[0002]图像理解是人类与生俱来的一种认知世界的能力，随着人工智能前沿技术的发展，越来越多的学者希望机器能够具备这样的图像理解能力。图像描述能够直观反映机器的图像理解水平，其在图像检索、社交媒体、电子商务等领域有着广泛的潜在应用，所以对图像描述的研究有着十分重大的意义。图像密集描述与已有的图像描述形式类似，输入均为一张图像，图像描述会针对图像生成一句概括描述，而密集描述则会对图像进行细分并对每个部分进行短语描述。
[0003]科研工作者针对图像密集描述任务的研究尚不充分，仍处于探索阶段。而对于一般的图像描述，已有大量充分的研究，基本的模型框架为：使用预训练好的卷积神经网络如Resnet提取图像特征向量，再用循环神经网络如LSTM根据图像特征向量逐词生成描述内容。先前的图像密集描述在单句描述的编解码结构的基础上，均是由图像目标检测入手，根据矩形检测框来得到候选描述区域，这样的作法可能会损失一些目标与背景或目标之间的关系，也可能会使密集描述重复内容过多过于繁琐。如下面参考文献中，Johnson J等人在2016年提出的密集描述方法，虽然描述比较全面，但存在大量信息冗余。
[0004]参考文献：Johnson,J.,Karpathy,A.,&Fei
‑
Fei,L.(2016).Densecap:...

【技术保护点】

【技术特征摘要】
1.一种基于图像显著性与深度注意力网络的图像密集描述方法，其特征在于，包括以下步骤：S1、基于图像显著性分析获得图像的关注区域及关注区域掩膜；S2、对图像进行编码，得到图像特征向量；S3、将图像特征向量和关注区域掩膜输入解码器，生成描述语句。2.根据权利要求1所述的图像密集描述方法，其特征在于，所述步骤S1包括：S11、通过图像显著性分析获得图像的显著性强度图；S12、根据预设的不同阈值将显著性强度图进行二值化，以获得图像的关注区域；S13、为关注区域生成掩膜；S14、显著性强度从弱到强，对关注区域掩膜计算交并比，如果交并比大于一定交并比阈值则舍去显著性强度强的关注区域，否则将显著性强度强的关注区域及其掩模保存。3.根据权利要求2所述的图像密集描述方法，其特征在于，交并比阈值为0.2。4.根据权利要求2所述的图像密集描述方法，其特征在于，在S12中，对所述获得图像的关注区域中的联通区域，经形态学膨胀腐蚀进行分割后形成关注区域。5.根据权利要求1所述的图像密集描述方法，其特征在于，在步骤S2中，通过Resnet进行编码。6.根据权利要求1所述的图像密集描述方法，其特征在于，在步骤S3中，解码器预测当前词的概率分布，同时将Soft注意力和Har...

【专利技术属性】
技术研发人员：鉴萍，温笑生，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人