当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于DETR和元学习的零样本目标检测方法技术

技术编号:39240347 阅读:15 留言:0更新日期:2023-10-30 11:53
本发明专利技术属于机器学习技术领域,具体为一种基于DETR和元学习的零样本目标检测方法。本发明专利技术方法是基于transformer架构的DETR检测器进行构建,将零样本学习机制引入到DETR深度目标检测框架,将类别语义向量直接融入到DETR的查询向量中,并通过解码器直接预测出结果,在训练的过程中,通过逐类别的最优匹配和损失计算来完成训练。本发明专利技术方法框架简单、使用方便、可扩展性强、可解释性强,在主流视觉属性数据集的零样本目标检测的结果表明,本方法性能明显优于现有的方法。本发明专利技术为目标检测技术在工业应用领域,提供算法的支持,也能很容易地扩展到其他零样本学习任务上。到其他零样本学习任务上。到其他零样本学习任务上。

【技术实现步骤摘要】
一种基于DETR和元学习的零样本目标检测方法


[0001]本专利技术属于机器学习
,具体涉及基于DETR和元学习的目标检测方法。

技术介绍

[0002]目标检测技术是计算机视觉任务中一个基础的任务,该任务旨在从图像中定位并分类出目标类别物体。目标检测技术的应用范围广泛,它为一些下游任务,例如实例分割,场景理解,姿态估计等任务,提供了基础的支持。已有深度目标检测模型在一些类别上取得了较好的准确率,但严重依赖于在大规模带标定数据集。然而在现实场景中,却面临着数据样本分布不均衡、以及样本无监督等问题,因此如何在没有训练样本的情况下,进行有效的目标检测,成为了计算机视觉领域的开放式问题。零样本学习为解决这一类问题提供了一套系统的框架,即利用大量的可见类数据和语义向量进行训练,即可在拥有未见类上面只依赖未见类语义向量进行预测,而不需要任何未见类的训练数据。
[0003]DETR为基于transformer架构的目标检测算法,由于成功的应用了transformer(一种利用注意力机制的神经网络结构)架构,目前性能最好的目标检测算法都是基于DETR修改而来,例如DINO,Deformable DETR等。
[0004]已有的零样本目标检测算法大多是基于Faster

RCNN目标检测框架修改而来,且这些方法都存在着以下局限性:
[0005](1)RPN生成的候选框难以覆盖未见类物体,因此导致在未见类的召回率较低;
[0006](2)由于第二阶段分类器的背景类是在可见类上训练的,因此导致未见类物体和背景类容易混淆。
[0007]零样本目标检测的应用场景较多,本专利技术例集中于濒危动物检测领域。对于濒危动物,其训练样本往往难以获取,导致传统的目标检测模型无法对这些濒危动物进行检测。而零样本目标检测仅仅只需要提供这些动物的语义向量,即可对其进行检测。

技术实现思路

[0008]本专利技术的目的在于提供一种检测准确率高的基于DETR和元学习的零样本目标检测方法。
[0009]零样本目标检测问题定义:零样本目标检测中,数据集被划分为可见类和未见类,可见类用于训练,未见类用于测试验证。同时,可见类和未见类的每个类别会提供一个语义向量,该语义向量为对该类别的描述。已有的方法中,大部分都是使用Faster RCNN的RPN网络来生成候选框,然后使用余弦相似度计算候选框特征和类别特征的相似度,从而完成候选框的分类。本专利技术基于DETR系列检测器,将语义向量融合到查询向量,并直接解码得到结果。
[0010]本专利技术提供的基于DETR和元学习的零样本目标检测方法,具体步骤为:
[0011]S1,采样图像数据和类别语义向量;对于图像,在训练集中,随机采样一个训练图像I,对于类别语义向量,首先随机采样图像I中包含的类别以及随机采样图像I中不包
含的类别和共同构成类别集合同时,图像I经过骨干网络和transformer编码器进行特征提取,得到图像I的特征x
I

[0012]S2,对类别集合对应的语义向量作线性映射;对于类别集合其对应的语义向量记作将语义向量经过线性层进行映射,得到映射后的语义向量即:
[0013][0014]S3,将映射后的语义向量和DETR的目标查询向量相加;将映射后的语义向量和DETR的目标查询向量进行相加,得到融合语义向量后的查询向量即:
[0015][0016]S4,对查询向量解码;将融合语义向量后的查询向量输入到DETR的解码器g
θ
中,得到预测的标定框结果即:
[0017][0018]上述这样设计的好处:传统的DETR只能检测训练集中出现的类别,然后对于一个查询向量,输出一个预测结果,且这边的查询向量是类别无关的,也就是对于每个查询向量,可以输出任意类别的标定框预测;本专利技术中,将查询向量融合类别语义向量,将类别无关的查询向量变成类别特定的查询向量,且该查询向量融合到这个类别后,这个查询向量就负责检测这个类别,只预测融合进去的类别的标定框的位置,以及预测的这个标定框属于这个类别的概率,也就是置信度;这样,就可以通过融合任意类别的语义向量,来对任意类别进行检测,即使这个类别没有出现在训练集。
[0019]为了让模型可以达到上述的目的,损失函数的设计非常重要:
[0020]传统的面向通用目标检测的DETR检测器的损失函数,传统的DETR检测器会进行最优二部匹配,即,将预测的标定框和真实标定框进行代价最小的匹配,并基于匹配结果进行优化。传统的DETR系列检测器的匹配过程可以表示为其中,为分类损失,为定位损失,这边用分类损失和定位损失相加来表示这个匹配下的代价。是N个数的一个全排列,这边表示要找到一个全排列使得后面的代价最小,也就是总损失最小。其中,是真实标定框,c表示类别,b表示位置,为预测的标定框。如果真实的标定框数量少于预测的标定框数量,真实的标定框会填充空集
[0021]基于这个匹配结果传统的DETR系列检测器会进行后续的损失函数优化:
[0022]损失函数的计算是基于上述的匹配结果也是由分类损失和定位损失构成。
[0023]本专利技术提出的零样本目标检测算法的损失函数设计原则如下:
[0024]在零样本目标检测算法中,最优匹配和损失函数优化是逐类别进行的:即,每次只对当前采样的类别集合中的一个类别(记作)进行最优匹配和损失函数计算,然后将所有的类别相加,得到最终损失函数。逐类别计算损失的原因在于:因为传统DETR里面,每个查询向量会生成一个任意类别的预测。但是,本专利技术算法的零样本目标检测,每个查询向量会融合一个特定的类别的语义向量,变成类别特定的查询向量,且只会生成该类别的预测框,因此,匹配过程由传统DETR的多类别匹配,变成了一个逐类别的二类匹配,具体为:
[0025]S5,逐类别的最优匹配;对于预测结果首先执行逐类别的最优匹配,对于每一个类别其匹配的目标为:
[0026][0027][0028]其中,c
i
是图像I中真实标定框b
i
的类别,通过上式,将匹配的目标根据类别是否和相同,修改为0和1两个类别;
[0029]其最优匹配的结果表示为:
[0030][0031]其中,T
τ
为查询向量的个数,也等于预测结果的个数;为T
τ
个元素的全排列之中的一个,为分类损失函数,为定位损失函数,为匹配的目标,为解码器输出的类别预测结果,表示对应的标定框预测属于融入的语义类别的概率。
[0032]S6,基于最优匹配搜索到的结果对于类别其损失函数定义为:
[0033][0034]其中,为分类损失,为回归损失,为对比重建损失;其中,为式子(5)中经过修正的标签,为解码器输出的类别预测结果,表示对应的标定框预测属于融入的语义类别的概率;
[0035]对于其实现形式如下:
[0036][0037][0038]其中,N
pos
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于DETR和元学习的零样本目标检测方法,零样本目标检测问题定义:零样本目标检测中,将数据集划分为可见类和未见类,可见类用于训练,未见类用于测试验证;同时,可见类和未见类的每个类别提供一个语义向量,该语义向量为对该类别的描述;将语义向量融合到查询向量,并直接解码得到结果;具体步骤为:S1,采样图像数据和类别语义向量;对于图像,在训练集中,随机采样一个训练图像I;对于类别语义向量,首先随机采样图像I中包含的类别以及随机采样图像I中不包含的类别和共同构成类别集合同时,图像I经过骨干网络和transformer编码器进行特征提取,得到图像I的特征x
I
;S2,对类别集合对应的语义向量作线性映射;对于类别集合其对应的语义向量记作将语义向量经过线性层进行映射,得到映射后的语义向量即:S3,将映射后的语义向量和DETR的目标查询向量相加;将映射后的语义向量和DETR的目标查询向量进行相加,得到融合语义向量后的查询向量即:S4,对查询向量解码;将融合语义向量后的查询向量输入到DETR的解码器h
θ
中,得到预测的标定框结果即:S5,进行行逐类别的最优匹配;对于预测结果首先执行逐类别的最优匹配,对于每一个类别其匹配的目标为:其匹配的目标为:其中,c
i
是图像I中真实标定框b
i
的类别,通过上式,将匹配的目标根据类别是否和相同,修改为0和1两个类别;其最优匹配的结果表示为:其中,T
τ
...

【专利技术属性】
技术研发人员:周水庚张路关昊赵佳佳
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1