一种基于语义信息候选框的改进弱监督目标检测方法技术

技术编号:34767833 阅读:23 留言:0更新日期:2022-08-31 19:22
本发明专利技术请求保护一种基于语义信息候选框的改进弱监督目标检测方法,属于图像处理领域。包括以下步骤:S1:输入待处理图像数据,并采用包括随机水平翻转在内的预处理步骤;S2:设计组合主干网络,用于融合来自掩膜和非掩膜的网络分支的特征;S3:设计基于多示例选择算法的多分支检测头网络;S4:设计目标语义候选框,通过对网络模型生成的目标语义信息进行循环掩膜来从而生成更合理的目标候选框;S5:在自然数据集上进行检测。基于该方法,在具有挑战性的PASCAL VOC 2007和2012公开数据集上进行了评估。实验结果表明,本发明专利技术提出的方法可以在PASCAL VOC 2007和2012数据集上实现较好的性能,并且优于许多较为先进的弱监督目标检测方法。测方法。测方法。

【技术实现步骤摘要】
一种基于语义信息候选框的改进弱监督目标检测方法


[0001]本专利技术属于图像处理领域,涉及一种基于语义信息候选框下组合主干网络结合基于多示例选择算法的多分支检测头网络的弱监督目标检测方法。

技术介绍

[0002]卷积神经网络模型在图像分类、目标检测和图像分割等多个计算机视觉任务中取得了惊人的性能,因此,近年来提出了具有各种优势且先进的网络来进一步提升相关的视觉任务性能。然而,在目标检测中,大多数是带有大量锚框或锚定点的全监督方法,这迫使研究人员在训练前需要将大量精力集中在对每个物体坐标框的精确标签上。
[0003]因此,为了避免对大量真实坐标框标签的需求,近年来提出了基于弱监督学习的目标检测方法,因为该方法只需要图像级类别标签。对于弱监督目标检测模型,模型通过所有候选框的信息在图像级类别标签上进行训练,训练后选择合理的候选框进行输出,这意味着需要的标签信息资源更少。目前,许多弱监督目标检测模型都采用多示例学习和端到端模型结构来对图像级类别标签和图像中候选框之间建立连接。例如,作为一种有效的弱监督目标检测模型,在线示例分类器精调方法首先训练图像级类别信息有限的所有候选框,然后引入伪图像级类别的真实目标框信息,进一步关注部分候选框。
[0004]虽然弱监督目标检测性能有了很大的提高,但这些方法仍然存在三个问题。首先,对于候选框,与目标相关候选框的质量较差,而且数量都较少,这阻碍了模型在训练过程中的收敛。其次,对于特征,从主干中提取的目标特征仅在局部目标区域表现出较高的响应,这导致位于该区域的预测候选框比代表完整目标的其他候选框产生更高的可信度。第三,对于检测分支而言,每个类别只有一个伪真实目标框是不合理的,因为在一幅图像中可能有更多具有相同类别且位置不同的目标。

技术实现思路

[0005]本专利技术旨在解决以上现有技术的问题。提出了一种从模型特征提取的合理性、挖掘真实目标框相关的潜在候选框能力以及训练前高质量目标候选框的生成三个方面进行改进的基于语义信息候选框的弱监督目标检测方法。本专利技术的技术方案如下:
[0006]一种基于语义信息候选框的改进弱监督目标检测方法,其包括以下步骤:
[0007]S1:输入待处理图像数据,并采用包括随机水平翻转在内的预处理步骤;
[0008]S2:设计组合主干网络,用于融合来自掩膜和非掩膜的网络分支的特征,非掩膜的网络分支任务是粗略地找到局部有显著区别的目标部分并对该目标进行定位,而掩膜分支的任务是屏蔽显著特征,并且保留不明显特征在网络中的响应;
[0009]S3:设计基于多示例选择算法的多分支检测头网络,为每个目标类别生成更多具有较高置信度的伪真实目标框,从而令网络模型得到更多与目标相关的候选框,进而得到更合理的训练。
[0010]S4:设计目标语义候选框,通过对多分支检测头网络模型生成的目标语义信息进
行循环掩膜来从而生成更合理的目标候选框;
[0011]S5:在自然数据集上进行检测。
[0012]进一步的,所述步骤S1输入待处理图像数据,并采用包括随机水平翻转在内的预处理步骤,具体包括以下步骤:
[0013]通过随机水平翻转操作,利用五个图像尺度{480、576、688、864、1200}随机调整训练图像的最短边的大小对网络模型进行训练;在测试阶段,通过综合分析每个图像的所有刻度及其水平翻转来计算预测的输出结果。
[0014]进一步的,所述通过综合分析每个图像的所有刻度及其水平翻转来计算预测的输出结果,具体包括:
[0015]每张图像的尺度会按照480、576、688、864和1200的尺度依次进行设置。将5种不同尺度及其水平翻转处理后的图像输入至网络模型,从而获得网络模型中不同尺度及其水平翻转处理后图像的输出结果。最后,将不同尺度图像的预测结果放缩至同一尺度大小下的结果,并使用后处理算法对放缩后的输出结果进行筛选,从而获得最终的预测结果。
[0016]通过计算样本的预测结果与真实目标框坐标之间的IoU大小,首先,按照预设阈值(0.5或0.75)确定样本属性。之后,对所有样本根据其分类结果由高至低进行排序。对排序后的样本进行遍历,并对已经遍历的样本按照公式(1)和公式(2)进行准确率Precision及召回率Recall的计算。
[0017][0018][0019]其中,TP、FP和FN表示真正例、假正例和假负例。
[0020]根据每次遍历得到的Precision及Recall,构建出以Recall为X轴而Precision为Y轴的曲线。最后,通过计算Precision及Recall围成的曲线面积,得到平均精度(AveragePrecision,AP),并通过计算每个类别的AP得到平均精度均值(meanAveragePrecision,mAP)
[0021]进一步的,所述S2中,还包括以下步骤:
[0022]给定一幅图像,基于像素级和目标语义特征生成候选框,并将其输入空间金字塔池层SPP,从组合主干网络中提取特征和候选框的坐标后,将候选框映射到特征图,以获得感兴趣区域RoI;由于每个RoI都有自己的大小,因此SPP层通过替换位于组合主干网络最后一层的最大池层来获得具有固定大小的RoI;然后,改进检测头网络中的并行全连接层将输出一系列候选框的特征向量。
[0023]进一步的,所述步骤S2中,划分显著及不明显特征的方法是在通过这两个独立的分支之前,从特征图中提取平均值和最大值;如果某个具体位置的特征值高于阈值,显著特征将被屏蔽,从而使得不明显特征经过组合主干网络后其响应得以增强;此外,有两种方法可以对显著特征进行屏蔽;一种是硬性掩膜方法,另一种是软性屏蔽方法,可分别在公式(3)和公式(4)中显示,
[0024][0025][0026]其中,f
i,j
表示特定位置的特征值,mean、Max、分别表示当前特征图的均值及最大值,和分别采用硬屏蔽和软屏蔽的方法来表示结果,α是一个超参数,用于控制阈值大小。
[0027]进一步的,所述S3中,多分支检测头网络包括以下两个步骤::
[0028]首先,所有候选框在多分支检测头网络的顶部分支部分进行共同训练,以找到潜在的目标候选框,图像级类别标签作为该分支的标签;然后,网络模型只会关注与目标相关的潜在候选框区域,并对与该区域关联的网络部分进行训练,并且上一个网络分支中生成的伪真实目标检测框标签作为新的监控输入下一个网络分支。
[0029]进一步的,所述步骤S3中引入多示例选择算法,用于在每一类中生成多个具有高置信度的伪真实坐标框,并将其发送给后一个网络分支,以便训练出与真实目标更相关的候选框;基于每个网络分支中候选框在每个类别上的分数不同,将所有分数从高到低进行排序,并将重点放在前10%分数的候选框P

上,作为伪真实目标检测框的来源;将设置一个K的阈值,以限制每个类别中伪真实目标检测框的数量;然后,在每一类中使用相同的阈值来确定候选框是否可以充当伪真实目标框箱本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语义信息候选框的改进弱监督目标检测方法,其特征在于,包括以下步骤:S1:输入待处理图像数据,并采用包括随机水平翻转在内的预处理步骤;S2:设计组合主干网络,用于融合来自掩膜和非掩膜的网络分支的特征,非掩膜的网络分支任务是粗略地找到局部有显著区别的目标部分并对该目标进行定位,而掩膜分支的任务是屏蔽显著特征,并且保留不明显特征在网络中的响应;S3:设计基于多示例选择算法的多分支检测头网络,基于多示例选择算法的多分支检测头网络为每个目标类别生成更多具有较高置信度的伪真实目标框,从而令网络模型得到更多与目标相关的候选框,进而得到更合理的训练。;S4:设计目标语义候选框,通过对多分支检测头网络模型生成的目标语义信息进行循环掩膜来从而生成更合理的目标候选框;S5:在自然数据集上进行检测。2.根据权利要求1所述的一种基于语义信息候选框的改进弱监督目标检测方法,其特征在于,所述步骤S1输入待处理图像数据,并采用包括随机水平翻转在内的预处理步骤,具体包括以下步骤:通过随机水平翻转操作,利用五个图像尺度{480、576、688、864、1200}随机调整训练图像的最短边的大小对网络模型进行训练;在测试阶段,通过综合分析每个图像的所有刻度及其水平翻转来计算预测的输出结果。3.根据权利要求2所述的一种基于语义信息候选框的改进弱监督目标检测方法,其特征在于,所述通过综合分析每个图像的所有刻度及其水平翻转来计算预测的输出结果,具体包括:每张图像的尺度会按照480、576、688、864和1200的尺度依次进行设置。将5种不同尺度及其水平翻转处理后的图像输入至网络模型,从而获得网络模型中不同尺度及其水平翻转处理后图像的输出结果。最后,将不同尺度图像的预测结果放缩至同一尺度大小下的结果,并使用后处理算法对放缩后的输出结果进行筛选,从而获得最终的预测结果;通过计算样本的预测结果与真实目标框坐标之间的IoU大小,首先,按照预设阈值(0.5或0.75)确定样本属性。之后,对所有样本根据其分类结果由高至低进行排序。对排序后的样本进行遍历,并对已经遍历的样本按照公式(1)和公式(2)进行准确率Precision及召回率Recall的计算。率Recall的计算。其中,TP、FP和FN表示真正例、假正例和假负例;根据每次遍历得到的Precision及Recall,构建出以Recall为X轴而Precision为Y轴的曲线。最后,通过计算Precision及Recall围成的曲线面积,得到平均精度AP,并通过计算每个类别的AP得到平均精度均值mAP。4.根据权利要求1所述的一种基于语义信息候选框的改进弱监督目标检测方法,其特征在于,所述S2中,还包括以下步骤:给定一幅图像,基于像素级和目标语义特征生成候选框,并将其输入空间金字塔池层
SPP,从组合主干网络中提取特征和候选框的坐标后,将候选框映射到特征图,以获得感兴趣区域RoI;由于每个RoI都有自己的大小,因此SPP层通过替换位于组合主干网络最后一层的最大池层来获得具有固定大小的RoI;然后,改进检测头网络中的并行全连接层将输出一系列候选框的特征向量。5.根据权利要求4所述的一种基于语义信息候选框的改进弱监督目标检测方法,其特征在于,所述步骤S2中,划分显著及不明显特征的方法是在通过这两个独立的分支之前,从特征图中提取平均值和最大值;如果某个具体位置的特征值高于阈值,显著特征将被屏蔽,从而使得不明显特征经过组合主干网络后其响应得以增强;此外,有两种方...

【专利技术属性】
技术研发人员:李国权夏瑞阳向娇林金朝庞宇郭豆豆朱宏钰
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1