一种基于语义特征和度量学习的小样本目标检测方法及系统技术方案

技术编号:29676133 阅读:123 留言:0更新日期:2021-08-13 21:58
本发明专利技术公开了一种基于语义特征和度量学习的小样本目标检测方法及系统,将查询图对应的类别语义名称作为知识,使用自然语言处理领域的word2vec工具计算对应的词向量作为语义特征,并与查询图的图像特征进行融合。通过将语义特征嵌入视觉域中,利用同类别目标在语义空间中具有的语义一致性,减少同类别目标间的距离,利用不同语义类别目标在语义空间中具有的语义差异性,增加不同类目标之间的距离,缓解现有基于度量学习的小样本目标检测模型出现的不同类别但外观视觉较相似目标的错检问题和相同语义类别但外观视觉差异较大的漏检的问题,提升在基类与新类上的检测精度。

【技术实现步骤摘要】
一种基于语义特征和度量学习的小样本目标检测方法及系统
本专利技术属于图像检测
,具体涉及一种基于语义特征和度量学习的小样本目标检测方法及系统。
技术介绍
深度学习模型在目标检测任务中取得了巨大的成功主要是因为深度神经网络可以从数据中学习更高级、更深层次的特征。然而深度学习模型严重依赖于大量的带标签数据,但人工数据标注费时费力、价格昂贵,并且在某些应用领域本来就没有足够的数据积累。深度学习在数据密集型的应用中达到了令人满意的效果,然而当带标签的数据样本很少时或数据集很小时,会受到阻碍。基于度量学习的小样本目标检测模型的输入是查询-目标图像对,输出是目标图像中与查询图像相似的区域。模型在基类上训练时,查询图像与目标图像的标签都是已知的,训练的目的是学习查询图像和目标图像之间的相似性度量,与类别无关,然后在测试阶段直接将学习到的度量用到新类数据集上。基于度量学习的小样本目标检测模型的本质思想是学习目标图像中各候选框与查询图像之间在视觉域空间中的相似性度量。该类模型只关注候选框内前景对象的视觉域特征与查询图像的视觉域特征是否相似,不去关注待检测目标具体属于哪一类,与类别无关,查询图像的目标类别信息并没有被用到。因此,使用该类模型进行小样本目标检测,会出现不同类相似目标的错检问题和同类不相似目标的漏检的问题。而类别所对应的语义域知识,如类别名称、类别属性等都是对一个类别的概括。不论目标之间在视觉域中存在多大的差异,对于同类的所有目标来说,其类别名称都是固定不变的;并且对于不同类目标来说,不论在视觉上多么接近,其类别名称都是有差异性的。零样本学习方法使用了视觉域与语义域两个域的信息,通过学习视觉域与语义域之间的联系,实现了给定新类语义域信息(类别属性、类别名称等),在没有视觉域图像数据的场景下对新类类对象的识别。因此,考虑到已有基于度量学习的模型存在的问题,结合零样本学习思想,本专利技术利用已有模型未用到的查询图像的类别名称作为语义知识,通过自然语言处理领域中word2vec工具计算每个类别名称对应的词向量,将其作为语义特征,设计合理的特征对齐模块,将语义特征嵌入到视觉特征中,实现知识传递,以获得更好、更丰富的查询图像的特征,进而提升检测结果。目前基于度量学习的小样本目标检测方法主要通过学习目标图像中各候选框与查询图像之间的相似性度量,不论是在训练过程还是在测试过程,模型只关注候选框与查询图像是否为相似区域,而不去关注具体的类别。使用该类方法进行小样本目标检测,会出现不同类相似目标的错检问题和同类不相似目标的漏检的问题。
技术实现思路
本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于语义特征和度量学习的小样本目标检测方法及系统,在训练过程中,通过利用基类中查询图像已知的类别标签作为语义知识,使用自然语言处理领域中的word2vec工具计算对应的语义特征,将该语义特征传递到视觉域空间中,与视觉域特征结合,得到包含类别语义信息的特征。通过引入该语义信息,拉大不同类目标之间的距离,缩小同类目标间的距离;解决同类目标外观可能差异太大,不同类目标外观可能差异太小所导致的错检、漏检的问题,提升在基类与新类数据上的检测精度。本专利技术采用以下技术方案:一种基于语义特征和度量学习的小样本目标检测方法,包括以下步骤:S1、对类别集合C进行划分,根据类别划分得到基类类别与新类类别,并根据基类类别与新类类别将图像数据集划分为基类图像数据集与新类图像数据集;S2、根据步骤S1得到的基类图像数据集和新类图像数据集分别构造形式为查询图像-目标图像的成对的基类数据集与新类数据集;S3、根据步骤S1中划分的新类类别与基类类别得到类别对应的名称,将类别名称作为一个词语,计算类别名称对应的词向量作为语义空间特征vc,得到类别的语义空间特征集合;S4、构造基于语义特征的知识传递模块A,给定查询图像的类别c,在步骤S3得到的语义空间特征集合中获取类别c对应的语义空间特征vc,与视觉空间特征F(x)进行级联,然后送入知识传递模块A的特征对齐网络中,将视觉空间特征与语义空间特征进行融合,输出融合语义信息后的特征F'(x)作为最终的查询图像的特征;S5、使用FasterR-CNN作为检测模型的主框架,构造基于类别名称的知识传递与度量学习的小样本目标检测模型并进行训练,以FasterR-CNN为主框架的基于度量学习的小样本目标检测模型包括特征提取网络F、候选区域生成网络RPN、度量模块M,结合步骤S4的知识传递模块A构成基于类别名称的知识传递与度量学习的小样本目标检测模型;S6、使用步骤S2构造的成对的基类数据集作为训练数据集,然后将查询-目标图像对、查询图像的类别名称与其对应的标签信息分批次输入步骤S5中构造的基于度量学习的小样本目标检测模型中进行训练,每批次大小为K;S7、将步骤S2中构造的成对的新类数据集或基类数据集中成对的查询-目标图像对以及查询图像的类别名称输入步骤S6训练后的基于语义特征和度量学习的小样本目标检测模型中,得到对于新类或基类的检测结果,即在目标图像中找到与查询图像属于同类别的目标实例,完成检测任务。具体的,步骤S1中,将COCO2017数据集中的80个类别划分为4组,将包含三组类别作为基类,包含基类类别目标的图像组成基类数据集用于模型训练;将剩余一个类别作为新类,将包含剩余类别目标的图像组成新类数据集用于测试。具体的,步骤S2中,对步骤S1中的新类数据集和基类数据集中所包含的图像,使用预训练好的MaskR-CNN对图像中的目标进行过滤,然后只使用MaskR-CNN检测出的标签信息训练,训练时随机选择一幅图像,然后获取对应图像上的目标的标签信息,根据位置标签进行裁剪缩放作为查询图像P,然后随机选择包含查询图像中目标类别的其它图像作为目标图像I,构造查询-目标图像对作为基于度量学习的小样本目标检测模型的输入。具体的,步骤S3中,将属于基类类别与新类类别的类别名称看成一个词语,作为语义信息,输入到在百万数量级的词典和上亿的数据集上训练后的word2vec中得到对应词向量,视每一类得到的d维词向量vc为类别在语义空间中的语义特征,得到最终类别的语义特征集合Fs={vc|c∈Cb∪Cn}。具体的,步骤S4中,构造基于语义特征的知识传递模块,包括一个特征对齐网络;特征对齐网络使用一个可学习的全连接层构成,用于学习语义特征与视觉特征之间的融合关系,给定查询图像的类别c,在步骤S3得到的语义空间特征集合Fs中获取类别c对应的语义空间特征vc,与查询图像对应的视觉空间特征F(P)进行级联,然后送入知识传递模块的特征对齐网络中,将视觉空间特征与语义空间特征进行融合,输出融合语义信息后的特征F'(P)作为最终的查询图像的特征。具体的,步骤S5中,使用FasterR-CNN作为检测模型的主框架,构造基于类别名称的知识传递与度量学习的小样本目标检测模型并进行训练;以FasterR-CNN为主框架的基于度量学习的小样本目标检测模型包括特本文档来自技高网
...

【技术保护点】
1.基于语义特征和度量学习的小样本目标检测方法,其特征在于,包括以下步骤:/nS1、对类别集合C进行划分,根据类别划分得到基类类别与新类类别,并根据基类类别与新类类别将图像数据集划分为基类图像数据集与新类图像数据集;/nS2、根据步骤S1得到的基类图像数据集和新类图像数据集分别构造形式为查询图像-目标图像的成对的基类数据集与新类数据集;/nS3、根据步骤S1中划分的新类类别与基类类别得到类别对应的名称,将类别名称作为一个词语,计算类别名称对应的词向量作为语义空间特征v

【技术特征摘要】
1.基于语义特征和度量学习的小样本目标检测方法,其特征在于,包括以下步骤:
S1、对类别集合C进行划分,根据类别划分得到基类类别与新类类别,并根据基类类别与新类类别将图像数据集划分为基类图像数据集与新类图像数据集;
S2、根据步骤S1得到的基类图像数据集和新类图像数据集分别构造形式为查询图像-目标图像的成对的基类数据集与新类数据集;
S3、根据步骤S1中划分的新类类别与基类类别得到类别对应的名称,将类别名称作为一个词语,计算类别名称对应的词向量作为语义空间特征vc,得到类别的语义空间特征集合;
S4、构造基于语义特征的知识传递模块A,给定查询图像的类别c,在步骤S3得到的语义空间特征集合中获取类别c对应的语义空间特征vc,与视觉空间特征F(x)进行级联,然后送入知识传递模块A的特征对齐网络中,将视觉空间特征与语义空间特征进行融合,输出融合语义信息后的特征F'(x)作为最终的查询图像的特征;
S5、使用FasterR-CNN作为检测模型的主框架,构造基于类别名称的知识传递与度量学习的小样本目标检测模型并进行训练,以FasterR-CNN为主框架的基于度量学习的小样本目标检测模型包括特征提取网络F、候选区域生成网络RPN、度量模块M,结合步骤S4的知识传递模块A构成基于类别名称的知识传递与度量学习的小样本目标检测模型;
S6、使用步骤S2构造的成对的基类数据集作为训练数据集,然后将查询-目标图像对、查询图像的类别名称与其对应的标签信息分批次输入步骤S5中构造的基于度量学习的小样本目标检测模型中进行训练,每批次大小为K;
S7、将步骤S2中构造的成对的新类数据集或基类数据集中成对的查询-目标图像对以及查询图像的类别名称输入步骤S6训练后的基于语义特征和度量学习的小样本目标检测模型中,得到对于新类或基类的检测结果,即在目标图像中找到与查询图像属于同类别的目标实例,完成检测任务。


2.根据权利要求1所述的方法,其特征在于,步骤S1中,将COCO2017数据集中的80个类别划分为4组,将包含三组类别作为基类,包含基类类别目标的图像组成基类数据集用于模型训练;将剩余一个类别作为新类,将包含剩余类别目标的图像组成新类数据集用于测试。


3.根据权利要求1所述的方法,其特征在于,步骤S2中,对步骤S1中的新类数据集和基类数据集中所包含的图像,使用预训练好的MaskR-CNN对图像中的目标进行过滤,然后只使用MaskR-CNN检测出的标签信息训练,训练时随机选择一幅图像,然后获取对应图像上的目标的标签信息,根据位置标签进行裁剪缩放作为查询图像P,然后随机选择包含查询图像中目标类别的其它图像作为目标图像I,构造查询-目标图像对作为基于度量学习的小样本目标检测模型的输入。


4.根据权利要求1所述的方法,其特征在于,步骤S3中,将属于基类类别与新类类别的类别名称看成一个词语,作为语义信息,输入到在百万数量级的词典和上亿的数据集上训练后的word2vec中得到对应词向量,视每一类得到的d维词向量vc为类别在语义空间中的语义特征,得到最终类别的语义特征集合Fs={vc|c∈Cb∪Cn}。


5.根据权利要求1所述的方法,其特征在于,步骤S4中,构造基于语义特征的知识传递模块,包括一个特征对齐网络;特征对齐网络使用一个可学习的全连接层构成,用于学习语义特征与视觉特征之间的融合关系,给定查询图像的类别c,在步骤S3得到的语义空间特征集合Fs中获取类别c对应的语义空间特征vc,与查询图像对应的视觉空间特征F(P)进行级联,然后送入知识传递模块的特征对齐网络中,将视觉空间特征与语义空间特征进行融合,输出融合语义信息后的特征F'(P)作为最终的查询图像的特征。


6.根据权利要求1所述的方法,其特征在于,步骤S5中,使用FasterR-CNN作为检测模型的主框架,构造基于类别名称的知识传递与度量学习的小样本目标检测模型并进行训练;
以FasterR-CNN为主框架的基于度量学习的小样本目标检测模型包括特征提取网络F、候选区域生成网络RPN、度量模块M,结合步骤S4中构造的基于知识传递的特征对齐模块A构成基于类别名称的知识传递与度量学习的小样本目标检测模型;采用ResNet-50作为特征提取网络F的骨干网络,用于提取查询图像与目标图像的特征F(P)和F(I),候选区域生成网络RPN用于生成包含前景对象的候选框区域;度量模块M使用两层的MLP网络,并以softmax二分类为结尾;使用基于知识传递的特征对齐模块A将查询图像的语义知识传递到视觉空间中,根据步骤S4得到最终的查询图像特征F'(P),度量模块M的输入是经过ROIPooling后目标图像上每个候选框的特征和查询图像的特征F'(P),输出两者间的相似度,保留相似度最高的候选框作为检测结果。


7.根据权利要求6所述的方法,其特征在于,步骤S5中,构造目标检测损失函数L对基于语义特征和度量学习的小样本目标检测模型进行训练,目标检测损失函数L为:



其中,为FasterR-CNN中的交叉熵损失,为回归损失,为基于边界的排名损失。


8.根据权利要求1所述的方法,其特征在于,步骤S6具体为:
S601、在步骤S2成对的构造的基类数据集中随机选择一对查询-目标图像对,目标图像为I,查询图像为P,并取查询图像对应标签信息中的类别名称CP作为语义知识;
S602、...

【专利技术属性】
技术研发人员:刘芳刘静焦李成李玲玲刘旭李鹏芳郭雨薇陈璞花
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1