一种基于两阶段检测模型的新型检测器方法技术

技术编号:38200608 阅读:7 留言:0更新日期:2023-07-21 16:42
本发明专利技术公开了一种基于两阶段检测模型的新型检测器方法。该发明专利技术在两阶段检测模型中有一定的通用性,改进后的检测模型也可以作为一个单独的检测框架使用。为了解决传统两阶段检测模型分类任务的后续通常会发生将新类目标分类为易于混淆的基类目标的问题,本发明专利技术在检测器中附加一个对比网络来了解类内的相似性和类间的差异性,通过对比对象编码,可以减少类之间的误差。该专利中以通过消融与对比实验对该算法的可行性与可用性进行验证,以此证明本发明专利技术提出的新型检测器的可行性与合理性。本发明专利技术提出的新型检测器的可行性与合理性。本发明专利技术提出的新型检测器的可行性与合理性。

【技术实现步骤摘要】
一种基于两阶段检测模型的新型检测器方法


[0001]本专利技术涉及深度学习中的目标检测分类领域,尤其涉及一种基于两阶段检测模型的新型检测器方法。

技术介绍

[0002]由于深度神经网络(DNN)在图像分类和检测任务中的巨大成功,它们现在被广泛接受为几乎所有计算机视觉应用的“特征提取器”,主要是因为它们能够很好地从数据中提取特征。众所周知,从头开始训练常规DNN模型需要大量训练数据。然而,在许多实际应用中,每一类可能能只提供几个训练样本来学习、训练分类器。比起常规的传统训练方法,该场景只有很少的新类样本和大量的基类样本,这就是所谓的小样本学习问题。
[0003]最近的研究在使用DNN进行小样本学习方面取得了重大进展。这已被证明适用于特定领域的任务,如人脸识别和一般类别的分类。然而,很少有工作研究了小样本学习中物体检测的问题,其中包括小样本目标定位和目标识别,目标识别可以看成是分类任务。目前比较常用的方法为元学习的方法,其中度量学习为元学习的一个分支。两阶段检测模型能够准确地对前景进行定位,但是后续的分类任务中通常会发生将新类目标分类为易于混淆的基类目标,这种结论依然不利于对新类目标进行度量估计。本专利技术为了解决类与类之间可能混淆的冲突,在检测器中附加一个对比网络来了解类内的相似性和类间的差异性,通过对比对象编码,可以减少类之间的误判。此外,传统两阶段模型会产生原始图像和特征图不对准的问题,本专利技术将ROI pooling模块改进为ROI Align模块来解决该问题。

技术实现思路

[0004]本专利技术主要是对传统两阶段检测模型(Faster

RCNN)的检测头进行改进,使用通过对比网络进行辅助的基于DML子网的新型检测器来替代传统网络框架,改进后的检测模型即可以作为一个单独的检测框架使用。
[0005]本专利技术所采用的技术方案是:
[0006]步骤1:从两阶段检测模型的主干网和ROI提取网络计算得出的单个特征向量,输入DML嵌入模块;
[0007]步骤2:嵌入模块会根据support image生成代表类,实现方法为将标量1输入到大小为N*K*e的FC层,输出为N*K*e的张量,N代表新类个数,K代表每个新类有K个实例,实例也可以理解为是训练集中的样本数量;
[0008]步骤3:经过步骤2得到的嵌入向量E,可以计算出这个嵌入向量E到Tij的距离d
ij
(E)=d(E,T
ij
),并通过这个距离得到该ROI的在i类第j种模态下的概率;
[0009][0010]步骤4:假设所有的类分布都是具有方差σ2的各向同性多变量Gaussian的混合。该框架没有学习混合系数,而是将类后验设为各模态下概率的最大值,如下式:
[0011][0012]其中B=i表示i类且其最大值取其混合模型的所有模式的最大。这个条件概率是实际的类后验概率的上界;
[0013]步骤5:在得到类后验后,该子网可以估算出开放背景类的后验概率。该子网不用对背景概率进行建模,而是通过前景概率的下界来估算,如下式
[0014][0015]步骤6:根据步骤5计算得出的P(B=i|X)和P(α|X),我们使用两个损失函数的总和来训练我们的模型(DML子网+主干网)。第一个损失是对应X的ROI的标准标签的交叉熵(CE)。另一个是为了确保E到正确类的最接近代表的距离和E到错误类的最接近代表的距离之间至少有β裕度,如下式:
[0016][0017]其中,i
*
是当前示例的正确类索引,|...|
+
是ReLU函数;
[0018]步骤7:在步骤1至步骤6的基础上,我们在ROI头部引入一个对比分支,与DML子网和回归分支平行;
[0019]步骤8:对比分支应用1层具有负逻辑成本的多层感知器(MLP)头部来将ROI特征转换为对比特征默认D
c
=128;
[0020]步骤9:经过步骤8后,该分支在MLP头部编码的ROI特征和优化对比目标上测量相似分数,以最大程度地提高同一类别的之间的一致性,并提高不同类别的差异性。
[0021]步骤1中的ROI提取网络为ROI Align网络。
[0022]步骤2中的FC层,在训练过程中,嵌入模块会将梯度引入到FC的权重并学习代表类。
[0023]步骤2中一共有两个FC层组成,宽度为1021,具有BN和ReLU,最后一个是具有线性激活、宽带为256的FC层,其次是L2归一化。
[0024]步骤7至步骤9中的对比网络可以适配于两阶段检测模型(Faster

RCNN)端到端的训练,需要在基础训练上额外进行一次训练,使用新类和对基类进行随机采样的数据集来对原始检测器进行微调,特征提取器在微调期间被冻结,而ROI提取器由对比类进行监督。
[0025]与现有技术相比,本专利技术的有益效果是:
[0026](1)能有效解决两阶段检测模块中后续出现的分类问题,利用在检测器中附加一个对比网络来了解类内的相似性和类间的差异性,通过对比对象编码,可以减少类之间的误判;
[0027](2)传统两阶段模块会产生原始图像和特征图像不对准的问题,通过将ROI pooling改进为ROI Align可以解决该问题。
附图说明
[0028]图1为本专利技术的算法总体框架。
[0029]图2为本专利技术的DML子网框架。
[0030]图3为本专利技术的基于DML子网的两阶段检测框架。
[0031]图4为分别使用、不使用本专利技术的对比网络loss后的可视化结果。
[0032]图5为本专利技术的基于对象编码的对比网络框架。
[0033]图6为对两阶段检测模型进行训练的各项损失。
[0034]图7为基于DML子网的两阶段检测模型的基线对比实验的mAP值。
[0035]图8为基于DML子网的两阶段检测模型的基线对比实验(可见类)的mAP值
[0036]图9为基于对象编码的对比网络的性能比较。
具体实施方式
[0037]下面结合附图对本专利技术进一步说明。
[0038]首先,基础检测器使用标准两阶段检测模型(Faster

RCNN)损失进行训练,二元交叉熵损失L
rpn
来从anchor中得到前景proposal,交叉熵损失L
cls
用来对边界框分类,平滑损失L
reg
用于边框回归。之后通过微调将数据转换为新数据,本文发现对比损失可以以多任务方式添加到主要的Faster

RCNN损失中,而不会破坏训练的稳定性,如下式:
[0039]L=L
rpn
+L
cls
+L
reg
+αL
cpe
[0040]其中α初设为0.5,用来平衡损失的比例,损失函数计算如图6所示。
[0041]为了证明DML子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于两阶段检测模型的新型检测器方法,其特征在于,包括以下步骤:步骤1:从两阶段检测模型的主干网和ROI提取网络计算得出的单个特征向量,输入DML嵌入模块;步骤2:嵌入模块会根据support image生成代表类,实现方法为将标量1输入到大小为N*K*e的FC层,输出为N*K*e的张量,N代表新类个数,K代表每个新类有K个实例,实例也可以理解为是训练集中的样本数量;步骤3:经过步骤2得到的嵌入向量E,可以计算出这个嵌入向量E到T
ij
的距离d
ij
(E)=d(E,T
ij
),并通过这个距离得到该ROI的在i类第j种模态下的概率;步骤4:假设所有的类分布都是具有方差σ2的各向同性多变量Gaussian的混合;该框架没有学习混合系数,而是将类后验设为各模态下概率的最大值,如下式:其中B=i表示i类且其最大值取其混合模型的所有模式的最大;这个条件概率是实际的类后验概率的上界;步骤5:在得到类后验后,该子网可以估算出开放背景类的后验概率;该子网不用对背景概率进行建模,而是通过前景概率的下界来估算,如下式步骤6:根据步骤5计算得出的P(B=i|X)和P(α|X),我们使用两个损失函数的总和来训练我们的模型(DML子网+主干网);第一个损失是对应X的ROI的标准标签的交叉熵(CE);另一个是为了确保E到正确类的最接近代表的距离和E到错误...

【专利技术属性】
技术研发人员:贾海涛陈昊男秦富鸿贾宇明许文波任利周焕来
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1