一种利用文本信息的跨模态图像目标检测方法和装置制造方法及图纸

技术编号：36690875 阅读：52 留言：0更新日期：2023-02-27 19:58

本发明专利技术涉及一种利用文本信息的跨模态图像目标检测方法和装置，方法包括：获取图像数据和待识别目标的标签信息；采用候选框神经网络模块检测图像数据中的所有目标，并进行截取得到多个感兴趣区域；采用图像特征抽取神经网络模块对感兴趣区域进行图像特征的提取，得到第一特征；采用文本特征抽取神经网络模块对待识别目标的标签信息进行文本特征的提取，得到第二特征；将第一特征和第二特征进行合并，得到合并矩阵；采用跨模态特征融合神经网络模块对合并矩阵中的特征进行交互融合，并将融合后的矩阵分离为2个分离矩阵；计算2个分离矩阵的相似度矩阵，并根据相似度矩阵确定目标检测的类别。本发明专利技术弥补了在开放词库的检测能力的缺陷。陷。陷。

全部详细技术资料下载

【技术实现步骤摘要】
一种利用文本信息的跨模态图像目标检测方法和装置

[0001]本专利技术涉及目标检测
，特别是涉及一种利用文本信息的跨模态图像目标检测方法和装置。

技术介绍

[0002]一般的目标检测方法有2个限制：1、仅利用图像这一种模态信息，无法有效利用文本信息增加图像的语义信息；2、无法随意扩展需要检测的类别，如模型在训练时的类别只有10类，那么在推理时，检测到的目标也只会包含于10类。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供一种利用文本信息的跨模态图像目标检测方法和装置，弥补了在开放词库的检测能力的缺陷。
[0004]本专利技术解决其技术问题所采用的技术方案是：提供一种利用文本信息的跨模态图像目标检测方法，包括以下步骤：
[0005]获取图像数据和待识别目标的标签信息；
[0006]采用候选框神经网络模块检测图像数据中的所有目标，并确定各个目标的位置，并基于所述位置将各个目标从图像数据中截取出来，得到多个感兴趣区域；
[0007]采用图像特征抽取神经网络模块对所述感兴趣区域进行图像特征的提取，得到第一特征；
[0008]采用文本特征抽取神经网络模块对所述待识别目标的标签信息进行文本特征的提取，得到第二特征；
[0009]将所述第一特征和第二特征进行合并，得到合并矩阵；
[0010]采用跨模态特征融合神经网络模块对所述合并矩阵中的第一特征和第二特征进行交互融合，得到融合矩阵，并将所述融合矩阵分离为2个分离矩阵；
[0011...

【技术保护点】

【技术特征摘要】
1.一种利用文本信息的跨模态图像目标检测方法，其特征在于，包括以下步骤：获取图像数据和待识别目标的标签信息；采用候选框神经网络模块检测图像数据中的所有目标，并确定各个目标的位置，并基于所述位置将各个目标从图像数据中截取出来，得到多个感兴趣区域；采用图像特征抽取神经网络模块对所述感兴趣区域进行图像特征的提取，得到第一特征；采用文本特征抽取神经网络模块对所述待识别目标的标签信息进行文本特征的提取，得到第二特征；将所述第一特征和第二特征进行合并，得到合并矩阵；采用跨模态特征融合神经网络模块对所述合并矩阵中的第一特征和第二特征进行交互融合，得到融合矩阵，并将所述融合矩阵分离为2个分离矩阵；计算2个分离矩阵的相似度矩阵，并根据相似度矩阵确定目标检测的类别。2.根据权利要求1所述的利用文本信息的跨模态图像目标检测方法，其特征在于，所述候选框神经网络模块为DETR目标检测网络。3.根据权利要求1所述的利用文本信息的跨模态图像目标检测方法，其特征在于，所述图像特征抽取神经网络模块为VIT预训练模型。4.根据权利要求1所述的利用文本信息的跨模态图像目标检测方法，其特征在于，所述文本特征抽取神经网络模块为BERT网络。5.根据权利要求1所述的利用文本信息的跨模态图像目标检测方法，其特征在于，所述跨模态特征融合神经网络模块包括依次设置的3层自注意力网络层和2层全连接层，所述3层自注意力网络层用于对所述合并矩阵中的第一特征和第二特征进行交互融合，输出融合矩阵；所述2层全连接层用于将所述融合矩阵分离为2个分离矩阵。6.一种利用文本信息的跨模态图像目标检测装置，其特征在于，包括：获取模块，用于获取图像数据和待识别目标的标签信息；候选框神经网络模块，用于检测图像数据中的所有目标，并确定各个目标的位置，并基于所述位置将各个目标从图像数据中截取出来，...

【专利技术属性】
技术研发人员：孔欧，
申请(专利权)人：上海蜜度信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人