一种基于混合擦除策略的弱监督目标定位方法技术

技术编号:39410086 阅读:11 留言:0更新日期:2023-11-19 16:01
本发明专利技术涉及一种基于混合擦除策略的弱监督目标定位方法,包括:构建神经网络,将图像输入第一深度学习分类模型,获取第一特征图生成第一激活图,根据第一激活图得到擦除阈值;对第一特征图进行归一化和零替换操作得到第二特征图并生成第二激活图;获取第二激活图的目标区域及目标预测概率;将第二激活图与第一激活图相加得到定位图,并筛选定位图得到第一阶段蒙版;将图像和第一阶段蒙版输入深度学习语义分割模型得到第三特征图并生成第三激活图;对第三激活图翻转擦除得到第四激活图,引导深度学习语义分割模型训练,并对输出结果继续归一化操作,得到定位框集合。本发明专利技术的弱监督定位方法扩展性强,定位精度高。定位精度高。定位精度高。

【技术实现步骤摘要】
一种基于混合擦除策略的弱监督目标定位方法


[0001]本专利技术涉及目标检测
,尤其涉及一种基于混合擦除策略的弱监督目标定位方法。

技术介绍

[0002]视觉是人类获取信息的重要来源,研究表明,人类通过视觉渠道获取80%以上的外界信息。图像是多媒体中的重要信息形式,形象、生动直观地承载着大量的信息,因此研究如何用计算机系统解释图像,实现类似人类视觉系统理解外部世界具有重要意义。其中,目标检测是计算机视觉中的一个基本且重要的问题,目标检测的目的是,在给定一张图片,通过计算机系统准确找到目标的位置以及判别目标的类别。目标检测在很多领域都有应用需求,被广为研究的有人脸检测,行人检测,车辆检测等重要目标的检测。
[0003]近年来,深度学习技术迅猛发展,在目标检测领域得到越来越多的关注,克服了很多基于特征的传统目标检测方法。目前基于深度学习的全监督目标检测算法有两大类:基于回归的one

stage目标检测算法,以及基于候选框的two

stage目标检测算法。基于候选框的two

stage目标检测算法分为提取候选框模块和分类模块,具有代表性的算法有R

CNN,Faster

RCNN等方法。基于回归的one

stage目标检测算法直接通过回归来学习目标的位置及类别,代表的算法有YOLO、SSD等算法,由于相对于基于候选框的目标检测算法而言基于回归的目标检测算法只有一步,所以大大加快了目标检测的速度。然而上述中的全监督目标检测需要大量且昂贵的边界框标注信息。有标注的数据虽然提升了基于深度学习的目标检测算法的性能,但是也耗费了大量的时间成本和人力成本。现实世界中有巨量的未标注过的数据,无法训练全监督目标检测算法。
[0004]弱监督定位算法不需要昂贵的边界框标注信息,只需要图像级别的类别标签,即可学习到图像中目标的位置信息。因此如何实现高精度的弱监督定位是有很大的研究和应用价值。目前弱监督目标定位研究通过训练一个深度学习分类模型,然后通过最后分类器的特殊类别权值对最后一层卷积特征图进行加权来获取定位图。然而由于分类模型更倾向于识别图像中物体最有辨识度的判别区域,导致无法定位成功。针对这一问题,一种朴素而有效的思想是按定位图的权重遮盖目标最有辨识度的区域,迫使网络利用目标的其他位置学习分类信息,从而由定位到部分区域转向定位到整体的目标区域。目前已有科研团队进行相应的研究,但现有技术中仍存在以下的缺陷:忽略了分类网络产生的类激活映射图中包含的目标空间信息;忽略了擦除策略中擦除分支可能带有噪声的问题;忽略了基于伪标签的策略本身标签不准确的问题;忽略了擦除策略可能的其他应用场景;定位精度低,时间长。

技术实现思路

[0005]为了克服现有技术的不足,本专利技术目的是提供一种基于混合擦除策略的弱监督定位方法,以解决现有的弱监督定位方法中目标位置搜索域狭窄、准确率低及定位区域小的
问题。
[0006]为了实现上述目的,本专利技术提供了一种基于混合擦除策略的弱监督目标定位方法,包括:
[0007]构建神经网络,所述神经网络包括第一深度学习分类模型、第二深度学习分类模型和深度学习语义分割模型;
[0008]将图像输入所述第一深度学习分类模型,获取所述第一深度学习分类模型中全卷积网络输出的第一特征图,通过全局平均池化层将所述第一特征图输入第一分类器生成第一激活图;
[0009]根据所述第一激活图的像素激活值总和得到擦除阈值;
[0010]对所述第一特征图执行归一化操作,并对所述第一特征图中大于所述擦除阈值的像素值进行零替换操作,得到第二特征图,通过全局平均池化层将所述第二特征图输入第二分类器生成第二激活图;
[0011]根据所述第二激活图获取蒙版,将所述蒙版叠加到所述图像的原图上,得到所述第二激活图的目标区域;
[0012]将所述第二激活图输入所述第二深度学习分类模型,通过归一化指数函数得到所述第二激活图的目标区域的目标预测概率;
[0013]将所述目标预测概率作为所述第二激活图的权重,并将所述第二激活图与第一激活图相加,得到定位图;
[0014]根据所述定位图进行筛选,得到第一阶段蒙版;
[0015]将所述图像和第一阶段蒙版输入所述深度学习语义分割模型,获取所述深度学习语义分割模型中全卷积网络输出的第三特征图,并根据所述第三特征图生成第三激活图;
[0016]对所述第三激活图进行翻转擦除得到第四激活图,将所述第三激活图和第四激活图的商作为损失函数引导所述深度学习语义分割模型的训练;
[0017]对所述深度学习语义分割模型的输出结果进行归一化操作,得到定位框集合。
[0018]优选的,所述第一深度学习分类模型包括:全卷积网络、全局平均池化层和两个独立的全连接层网络。
[0019]优选的,所述深度学习语义分割模型包括:全卷积网络和全连接层网络。
[0020]优选的,所述将图像输入所述第一深度学习分类模型之前,还包括:
[0021]训练所述第一深度学习分类模型,使得所述第一深度学习分类模型具有分类能力。
[0022]进一步优选的,所述训练所述第一深度学习分类模型,使得所述第一深度学习分类模型具有分类能力,具体包括:
[0023]使用带有类别标注的图像数据集训练所述第一深度学习分类模型,并且使用交叉熵函数作为损失函数,使得所述第一深度学习分类模型具有分类能力。
[0024]本专利技术实施例提供了一种基于混合擦除策略的弱监督目标定位方法,首先构建神经网络,然后将图像输入第一深度学习分类模型,获取第一特征图,根据第一特征图生成第一激活图,根据第一激活图获取擦除阈值;对第一特征图执行归一化操作和零替换操作,得到第二特征图,通过全局平均池化层生成第二激活图;根据第二激活图获取蒙版,并将蒙版叠加到原图,得到第二激活图的目标区域;将第二激活图输入第二深度学习分类模型,通过
归一化函数得到第二激活图的目标预测概率;将第二激活图与第一激活图相加,得到定位图;筛选定位图得到第一阶段蒙版;将图像和第一阶段蒙版输入深度学习语义分割模型,获取第三特征图,并根据第三特征图生成第三激活图;对第三激活图进行翻转擦除得到第四激活图,将第三激活图和第四激活图的商作为损失函数引导深度学习语义分割模型的训练;对深度学习语义分割模型的输出结果进行归一化操作,得到定位框集合。本专利技术引入自适应的阈值策略来引导擦除,避免人工选择阈值,同时,通过翻转擦除策略,避免了在伪标签训练阶段可能带来的类别信息不明确导致定位错误的问题,本专利技术的方案能够方便地与现有弱监督定位擦除技术融合,具有扩展性强,定位精度高及低计算资源特性。
附图说明
[0025]图1为本专利技术实施例提供的一种基于混合擦除策略的弱监督目标定位方法的流程示意图。
具体实施方式
[0026]为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于混合擦除策略的弱监督目标定位方法,其特征在于,所述方法包括:构建神经网络,所述神经网络包括第一深度学习分类模型、第二深度学习分类模型和深度学习语义分割模型;将图像输入所述第一深度学习分类模型,获取所述第一深度学习分类模型中全卷积网络输出的第一特征图,通过全局平均池化层将所述第一特征图输入第一分类器生成第一激活图;根据所述第一激活图的像素激活值总和得到擦除阈值;对所述第一特征图执行归一化操作,并对所述第一特征图中大于所述擦除阈值的像素值进行零替换操作,得到第二特征图,通过全局平均池化层将所述第二特征图输入第二分类器生成第二激活图;根据所述第二激活图获取蒙版,将所述蒙版叠加到所述图像的原图上,得到所述第二激活图的目标区域;将所述第二激活图输入所述第二深度学习分类模型,通过归一化指数函数得到所述第二激活图的目标区域的目标预测概率;将所述目标预测概率作为所述第二激活图的权重,并将所述第二激活图与第一激活图相加,得到定位图;根据所述定位图进行筛选,得到第一阶段蒙版;将所述图像和第一阶段蒙版输入所述深度学习语义分割模型,获取所述深度学习语义分割模型中全卷积网络输出的第三特征图,并根据所述第...

【专利技术属性】
技术研发人员:薛松阎士奇苗津铨李乾张程王曙李鲲鹏唐化勇王军涛张启发刘峻杭贾瑞涛
申请(专利权)人:中车青岛四方车辆研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1