一种利用文本信息的跨模态图像目标检测方法和装置制造方法及图纸

技术编号:36690875 阅读:42 留言:0更新日期:2023-02-27 19:58
本发明专利技术涉及一种利用文本信息的跨模态图像目标检测方法和装置,方法包括:获取图像数据和待识别目标的标签信息;采用候选框神经网络模块检测图像数据中的所有目标,并进行截取得到多个感兴趣区域;采用图像特征抽取神经网络模块对感兴趣区域进行图像特征的提取,得到第一特征;采用文本特征抽取神经网络模块对待识别目标的标签信息进行文本特征的提取,得到第二特征;将第一特征和第二特征进行合并,得到合并矩阵;采用跨模态特征融合神经网络模块对合并矩阵中的特征进行交互融合,并将融合后的矩阵分离为2个分离矩阵;计算2个分离矩阵的相似度矩阵,并根据相似度矩阵确定目标检测的类别。本发明专利技术弥补了在开放词库的检测能力的缺陷。陷。陷。

【技术实现步骤摘要】
一种利用文本信息的跨模态图像目标检测方法和装置


[0001]本专利技术涉及目标检测
,特别是涉及一种利用文本信息的跨模态图像目标检测方法和装置。

技术介绍

[0002]一般的目标检测方法有2个限制:1、仅利用图像这一种模态信息,无法有效利用文本信息增加图像的语义信息;2、无法随意扩展需要检测的类别,如模型在训练时的类别只有10类,那么在推理时,检测到的目标也只会包含于10类。

技术实现思路

[0003]本专利技术所要解决的技术问题是提供一种利用文本信息的跨模态图像目标检测方法和装置,弥补了在开放词库的检测能力的缺陷。
[0004]本专利技术解决其技术问题所采用的技术方案是:提供一种利用文本信息的跨模态图像目标检测方法,包括以下步骤:
[0005]获取图像数据和待识别目标的标签信息;
[0006]采用候选框神经网络模块检测图像数据中的所有目标,并确定各个目标的位置,并基于所述位置将各个目标从图像数据中截取出来,得到多个感兴趣区域;
[0007]采用图像特征抽取神经网络模块对所述感兴趣区域进行图像特征的提取,得到第一特征;
[0008]采用文本特征抽取神经网络模块对所述待识别目标的标签信息进行文本特征的提取,得到第二特征;
[0009]将所述第一特征和第二特征进行合并,得到合并矩阵;
[0010]采用跨模态特征融合神经网络模块对所述合并矩阵中的第一特征和第二特征进行交互融合,得到融合矩阵,并将所述融合矩阵分离为2个分离矩阵;
[0011]计算2个分离矩阵的相似度矩阵,并根据相似度矩阵确定目标检测的类别。
[0012]所述候选框神经网络模块为DETR目标检测网络。
[0013]所述图像特征抽取神经网络模块为VIT预训练模型。
[0014]所述文本特征抽取神经网络模块为BERT网络。
[0015]所述跨模态特征融合神经网络模块包括依次设置的3层自注意力网络层和2层全连接层,所述3层自注意力网络层用于对所述合并矩阵中的第一特征和第二特征进行交互融合,输出融合矩阵;所述2层全连接层用于将所述融合矩阵分离为2个分离矩阵。
[0016]本专利技术解决其技术问题所采用的技术方案是:提供一种利用文本信息的跨模态图像目标检测装置,包括:
[0017]获取模块,用于获取图像数据和待识别目标的标签信息;
[0018]候选框神经网络模块,用于检测图像数据中的所有目标,并确定各个目标的位置,并基于所述位置将各个目标从图像数据中截取出来,得到多个感兴趣区域;
[0019]图像特征抽取神经网络模块,用于对所述感兴趣区域进行图像特征的提取,得到第一特征;
[0020]文本特征抽取神经网络模块,用于对所述待识别目标的标签信息进行文本特征的提取,得到第二特征;
[0021]合并模块,用于将所述第一特征和第二特征进行合并,得到合并矩阵;
[0022]跨模态特征融合神经网络模块,用于对所述合并矩阵中的第一特征和第二特征进行交互融合,得到融合矩阵,并将所述融合矩阵分离为2个分离矩阵;
[0023]分类模块,用于计算2个分离矩阵的相似度矩阵,并根据相似度矩阵确定目标检测的类别。
[0024]所述跨模态特征融合神经网络模块包括依次设置的3层自注意力网络层和2层全连接层,所述3层自注意力网络层用于对所述合并矩阵中的第一特征和第二特征进行交互融合,输出融合矩阵;所述2层全连接层用于将所述融合矩阵分离为2个分离矩阵。
[0025]所述分类模块包括:计算单元,用于将两个2个分离矩阵做矩阵乘法,并将得到的结果做Soft

Max归一化操作,得到相似度矩阵;比较单元,用于将相似度矩阵中的标签的相似度与阈值进行比较,并去除小于阈值的标签,将保留的标签作为目标检测的类别。
[0026]本专利技术解决其技术问题所采用的技术方案是:提供一种电子设备,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的利用文本信息的跨模态图像目标检测方法的步骤。
[0027]本专利技术解决其技术问题所采用的技术方案是:提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的利用文本信息的跨模态图像目标检测方法的步骤。
[0028]有益效果
[0029]由于采用了上述的技术方案,本专利技术与现有技术相比,具有以下的优点和积极效果:本专利技术同时利用候选框神经网络模块、图像特征抽取神经网络模块、文本特征抽取神经网络模块和跨模态特征融合神经网络模块的共同作用,增加图像特征的语义信息,并可以在不增加类别训练的情况下,有效做到对任意类别的检测能力,弥补了在开放词库的检测能力的缺陷。
附图说明
[0030]图1是本专利技术第一实施方式的流程图;
[0031]图2是本专利技术第二实施方式的结构方框图。
具体实施方式
[0032]下面结合具体实施例,进一步阐述本专利技术。应理解,这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围。此外应理解,在阅读了本专利技术讲授的内容之后,本领域技术人员可以对本专利技术作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
[0033]本专利技术的第一实施方式涉及一种利用文本信息的跨模态图像目标检测方法,如图1所示,包括以下步骤:
[0034]步骤1,获取图像数据和待识别目标的标签信息;
[0035]步骤2,采用候选框神经网络模块检测图像数据中的所有目标,并确定各个目标的位置,并基于所述位置将各个目标从图像数据中截取出来,得到多个感兴趣区域,。
[0036]本步骤中,候选框神经网络模块使用DETR目标检测网络,其能够对图像数据中的M个目标进行定位,并输出M个坐标信息,每个坐标信息为矩形框包含目标的x轴左上角坐标、y轴左上角坐标、x轴右下角坐标,y轴右下角坐标。通过M个坐标信息,截取原始输入图片中的目标区域,即可得到目标的感兴趣区域。
[0037]步骤3,采用图像特征抽取神经网络模块对所述感兴趣区域进行图像特征的提取,得到第一特征。
[0038]本步骤中,图像特征抽取神经网络模块使用VIT预训练模型,该VIT预训练模型可以抽取ROI的特征,从而能够获取到M个第一特征,M个第一特征构成第一特征向量,第一特征向量的长度为768dim,命名为A。
[0039]步骤4,采用文本特征抽取神经网络模块对所述待识别目标的标签信息进行文本特征的提取,得到第二特征。
[0040]本步骤中,文本特征抽取神经网络模块采用BERT网络,由于文本特征抽取神经网络模块用来抽取文本特征,因此待识别目标的标签信息作为其输入时,需要将待识别目标的标签信息合并成一个句子,如待识别目标的标签信息类别有:鸟、鸭子、汽车,将这些类别当做句子分词后的结果输入至文本特征抽取神经网络模块,通过该文本特征抽取神经网络模块能够抽取输入文本的特征,N个第二特征,N个第二特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种利用文本信息的跨模态图像目标检测方法,其特征在于,包括以下步骤:获取图像数据和待识别目标的标签信息;采用候选框神经网络模块检测图像数据中的所有目标,并确定各个目标的位置,并基于所述位置将各个目标从图像数据中截取出来,得到多个感兴趣区域;采用图像特征抽取神经网络模块对所述感兴趣区域进行图像特征的提取,得到第一特征;采用文本特征抽取神经网络模块对所述待识别目标的标签信息进行文本特征的提取,得到第二特征;将所述第一特征和第二特征进行合并,得到合并矩阵;采用跨模态特征融合神经网络模块对所述合并矩阵中的第一特征和第二特征进行交互融合,得到融合矩阵,并将所述融合矩阵分离为2个分离矩阵;计算2个分离矩阵的相似度矩阵,并根据相似度矩阵确定目标检测的类别。2.根据权利要求1所述的利用文本信息的跨模态图像目标检测方法,其特征在于,所述候选框神经网络模块为DETR目标检测网络。3.根据权利要求1所述的利用文本信息的跨模态图像目标检测方法,其特征在于,所述图像特征抽取神经网络模块为VIT预训练模型。4.根据权利要求1所述的利用文本信息的跨模态图像目标检测方法,其特征在于,所述文本特征抽取神经网络模块为BERT网络。5.根据权利要求1所述的利用文本信息的跨模态图像目标检测方法,其特征在于,所述跨模态特征融合神经网络模块包括依次设置的3层自注意力网络层和2层全连接层,所述3层自注意力网络层用于对所述合并矩阵中的第一特征和第二特征进行交互融合,输出融合矩阵;所述2层全连接层用于将所述融合矩阵分离为2个分离矩阵。6.一种利用文本信息的跨模态图像目标检测装置,其特征在于,包括:获取模块,用于获取图像数据和待识别目标的标签信息;候选框神经网络模块,用于检测图像数据中的所有目标,并确定各个目标的位置,并基于所述位置将各个目标从图像数据中截取出来,...

【专利技术属性】
技术研发人员:孔欧
申请(专利权)人:上海蜜度信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1