一阶段指称目标检测方法、设备及介质技术

技术编号：41664349 阅读：18 留言：0更新日期：2024-06-14 15:23

本发明专利技术涉及一种一阶段指称目标检测方法、设备及介质，该方法包括：S1、输入图片和句子，并进行句子词嵌入预处理；S2、多模态特征提取：将词嵌入输入短期记忆网络获取句子的语言特征，对语言特征进行自注意力计算，捕获句子中不同单词或短语间的语义关系，提取编码后的语言特征；采用卷积神经网络提取多尺度的图像特征；S3、语义特征细化：将视觉编码分支与语言编码分支分为与图像特征尺度对应的多个阶段，在每个阶段使用语义特征细化模块进行跨模态信息交互，跨模态信息交互后得到的细化的视觉特征继续参与卷积神经网络的前向传播过程；S4、多尺度特征融合；S5、目标检测。与现有技术相比，本发明专利技术具有检测结果准确度高的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及跨模态目标检测，尤其是涉及一种一阶段指称目标检测方法、设备及介质。

技术介绍

1、研究视觉与自然语言的跨模态方向是当前学界热门研究方向之一，将视觉与文本结合的相关任务在近几年在许多方向取得了重大的进展，指称目标检测是其中最重要的任务之一，其通过给定的指称语言文本描述，准确定位视觉图像中相应目标区域。

2、与目标检测任务一样，指称目标检测方法从两阶段转变到一阶段。两阶段方法使用预先训练的对象检测器来提取区域建议，然后通过搜索算法来选择最匹配的区域。然而，这些两阶段方法对提案的质量很敏感，并且计算成本很高。与两阶段方法不同，一阶段方法直接使用卷积神经网络来提取像素级视觉特征图，并去预测目标边界框位置，不需要复杂的图像-文本匹配过程，在速度和准确性方面具有优势。

3、虽然现有方法已取得了显著的进步，但是这些方法将视觉和语言编码分支视为两个相对独立的模块，所有的跨模态融合都是在特征提取完成后进行的，这种早期融合的方式没有充分利用来自两种模态的信息从而限制了视觉和语言编码器的能力。此外，先前的单阶段方法使用预...

【技术保护点】

1.一种一阶段指称目标检测方法，其特征在于，该方法包括：

2.根据权利要求1所述的一阶段指称目标检测方法，其特征在于，所述S1中对输入的句子进行词嵌入，具体为：采用GloVe词嵌入将句子中的每个单词嵌入到设定维的独热向量中。

3.根据权利要求1所述的一阶段指称目标检测方法，其特征在于，所述S2中将词嵌入输入双向长短期记忆网络获取句子的语言特征，对语言特征进行自注意力计算，捕获句子中不同单词或短语间的语义关系，提取编码后的语言特征，具体为：

4.根据权利要求1所述的一阶段指称目标检测方法，其特征在于，所述S2中采用卷积神经网络从预处理后的输入图片中提取多...

【技术特征摘要】

1.一种一阶段指称目标检测方法，其特征在于，该方法包括：

2.根据权利要求1所述的一阶段指称目标检测方法，其特征在于，所述s1中对输入的句子进行词嵌入，具体为：采用glove词嵌入将句子中的每个单词嵌入到设定维的独热向量中。

3.根据权利要求1所述的一阶段指称目标检测方法，其特征在于，所述s2中将词嵌入输入双向长短期记忆网络获取句子的语言特征，对语言特征进行自注意力计算，捕获句子中不同单词或短语间的语义关系，提取编码后的语言特征，具体为：

4.根据权利要求1所述的一阶段指称目标检测方法，其特征在于，所述s2中采用卷积神经网络从预处理后的输入图片中提取多尺度的图像特征，具体为：将固定大小后的图片输入至darknet卷积神经网络，取darknet后三个卷积块输出的特征图作为多尺度的图像特征v＝{vi,v2,v3}，其中ci...

【专利技术属性】
技术研发人员：谢少荣，张照奕，骆祥峰，陈雪，
申请(专利权)人：上海大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人