当前位置: 首页 > 专利查询>中北大学专利>正文

一种基于MetaRCNN的少样本目标检测方法技术

技术编号:39426972 阅读:9 留言:0更新日期:2023-11-19 16:13
本发明专利技术属于计算机视觉技术领域,具体涉及一种基于MetaRCNN的少样本目标检测方法。为克服现有检测技术在检测精度和在新类泛化能力差的缺点,本发明专利技术构建的深度学习网络实现包括ResNet为主干网,区域建议网络提取图像目标建议框,RoIAlign处理基础特征和感兴趣区域,特征聚合之后馈送到预测器,得到输出后与对应真值一起送入目标函数计算损失,反向传播调整参数,直至目标函数收敛,将采集构建的数据集输入到训练好的深度网络模型得到像素级预测输出,通过AP值衡量预测结果。通过AP值衡量预测结果。通过AP值衡量预测结果。

【技术实现步骤摘要】
一种基于Meta RCNN的少样本目标检测方法


[0001]本专利技术属于计算机视觉
,具体涉及一种基于Meta RCNN的少样本目标检测方法。

技术介绍

[0002]近年来,以深度学习为基础的图像目标检测技术取得了显著成就,并涌现了许多成熟的检测模型,但这些模型均需要利用大量的标注样本进行训练,但即使是最好的方法也很难很好地泛化到训练期间系统没有遇到过或样本示例少的未知类别上,且在实际场景当中,往往很难获取到大规模高质量的标注样本,从而限制了其在特定领域的应用。同时,获取成千上万的有效数据并为其做出精确的标注成本高昂。尤其是在一些医疗、军事、国防等领域,数据稀缺,且需要高水平专家进行标注,普通深度学习的微调方式在面对这种只有单一或者少量样本的挑战时已然束手无策。
[0003]因而,通过很少的样本数量进行目标检测是一个极具现实意义的问题,受到了越来越多的关注。少样本目标检测问题的提出是为了解决训练样本较少的情况下的目标检测问题。传统的目标检测算法基于丰富的带有标注数据的训练样本进行目标检测,即其拥有丰富的训练样本,而少样本目标检测训练样本不足,这种情况下学习到的目标检测网络性能较差,检测精度也低于传统目标检测算法。因此,将训练好的目标检测网络很好地泛化到新类上是当前的少样本目标检测算法的研究重点。
[0004]由于少样本目标检测的研究尚且处于起步阶段,为了更好地推广到新类对象,必须明确一些需要着重解决的问题:
[0005]1)对图像数据进行特征提取并处理时,很容易受到噪声类信息特征的影响,特别是在少样本设置下,只为新类提供少数标记样本;
[0006]2)仅用一些新类别的实例微调目标检测网络容易导致过拟合。
[0007]Meta RCNN将元学习引入到两阶段目标检测方法中,借助Faster RCNN和Mask RCNN的RoI特征部分解决了复杂背景及图像中存在多个目标的情况下少样本目标检测算法研究的沉疴问题。网络添加了一种预测头重塑网络(the Predictor

head Remodeling Network,PRN),其与Faster RCNN或Mask RCNN共享主干。PRN完全卷积,其接收来自基类和新类的少样本目标及其边界框或掩码,推断出与少样本输入目标所属类相应的类注意向量。因而Meta RCNN是个轻量级网络且提升了传统Faster RCNN或Mask RCNN在新类样本上的泛化能力。

技术实现思路

[0008]现有少样本目标检测方法,在基于大型数据集进行目标检测时,通常使用含有少量标注信息的新类(不常见类)进行网络模型微调,注释信息的缺乏导致网络学习到的可用知识较为匮乏,为新类检测的准确程度添加了难度。
[0009]为克服现有少样本目标检测方法研究较少且针对新类检测的准确率较低的缺点,
本专利技术提供了一种基于Meta RCNN的少样本目标检测方法,主要解决以下问题:(1)主干网从新类的输入数据中提取到的特征信息较为贫乏;(2)在基类上训练好的网络微调后在新类上的泛化能力差,基类和新类之间的可分离性较差。
[0010]为了达到上述目的,本专利技术采用了下列技术方案:
[0011]一种基于Meta RCNN的少样本目标检测方法,包括以下步骤:
[0012]步骤1,采集原始数据:使用RGB相机拍摄所要预测的物体,得到RGB图像;
[0013]步骤2,生成训练数据集:获取RGB图像对应的边界框信息数据和掩码数据信息,以构建PASCALVOC格式的数据集;
[0014]步骤3,构建深度学习网络模型:包括依次连接的数据输入模块、特征处理模块、特征聚合模块和预测器模块;
[0015]所述数据输入模块使用查询图像及类数据图像作为输入,其中查询图像为1维224
×
224深度图,类数据图像为基于图像特征预测生成的感兴趣区域的二进制掩码图像;
[0016]所述特征处理模块包括查询特征处理模块和类特征处理模块,所述查询特征处理模块和类特征处理模块均包括主干部分、RPN网络和建议级特征对齐模块,在所述查询特征处理模块中,输入图像首先通过卷积核为7的二维卷积,将卷积得到的特征图顺序进行批量归一化、ReLU激活、二维最大池化,并馈送到层级网络进行处理得到基础特征,随后将提取得到的基础特征图,连同图像信息、真实边界框以及边界框数量馈送到RPN网络中,以获取预测的感兴趣区域特征,所述建议级特征对齐模块基于预测的感兴趣区域特征,进行roi池化,池化方式拟定三种POOLING_MODE模式,根据不同模式的实际效果选取最终池化方式,获取到的特征图馈送到对应通道数的层级网络,得到最终的查询特征;在所述类特征处理模块中,再引入一个共享FasterRCNN的主干网络的PRN,PRN接收图像数据,以推断它们的类注意力向量,输入图像先经过所述主干部分处理得到类数据的基础特征,随后基础特征进行最大池化、对应通道数的层级网络及sigmoid处理生成类注意力向量,即类数据特征;所述层级网络由输入每个层的块数目及其类型创建生成;
[0017]所述特征聚合模块将特征处理模块获取到的类数据特征与查询特征分别逐次进行通道乘法、特征减法,得到的结果与查询特征按通道级联,完成特征聚合并得到聚合后的特征,特征聚合公式如下:
[0018]Α(f
roi
,f
cls
)=[f
roi

f
cls
,f
roi

f
cls
,f
roi
]ꢀꢀꢀꢀ
(1)
[0019]其中,f
roi
表示查询特征,f
cls
表示类数据特征;
[0020]预测器模块:为边界框分类和回归,包含边界框分类器和边界框回归器,二者均实现为两个大小为4096的全连接层,分别输出N
train
=|C
train
|个分类分数及每个RoI对应的N
train
个框回归;
[0021]步骤4,训练深度学习网络模型:将生成的训练数据集中的图像进行预处理后,输入到深度学习网络模型,得到输出后图像与对应真值图一起送入目标函数计算损失,反向传播调整参数,直至目标函数收敛;
[0022]步骤5,输出:最终输出图像中包含对象概率及边界框参数,对边界框分类和回归输出的结果进行处理,得到边界框信息,同时将聚合特征馈送到输入特征数为聚合特征维度、输出特征数为类别数量的全连接层以计算对象类别概率,标注生成的含有边界框信息及掩码信息的图像输入到训练好的深度网络模型得到预测输出。
[0023]进一步,所述步骤2中RGB图像对应的边界框信息数据和掩码数据信息通过使用Labelimg和Labelme标注工具对拍摄的RGB图像进行标注来获取,具体步骤如下:
[0024]首先使用Labelimg标注工具为所拍摄图像标注其对应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于MetaRCNN的少样本目标检测方法,其特征在于,包括以下步骤:步骤1,采集原始数据:使用RGB相机拍摄所要预测的物体,得到RGB图像;步骤2,生成训练数据集:获取RGB图像对应的边界框信息数据和掩码数据信息,以构建PASCALVOC格式的数据集;步骤3,构建深度学习网络模型:包括依次连接的数据输入模块、特征处理模块、特征聚合模块和预测器模块;所述数据输入模块使用查询图像及类数据图像作为输入,其中查询图像为1维224
×
224深度图,类数据图像为基于图像特征预测生成的感兴趣区域的二进制掩码图像;所述特征处理模块包括查询特征处理模块和类特征处理模块,所述查询特征处理模块和类特征处理模块均包括主干部分、RPN网络和建议级特征对齐模块,在所述查询特征处理模块中,输入图像首先通过卷积核为7的二维卷积,将卷积得到的特征图顺序进行批量归一化、ReLU激活、二维最大池化,并馈送到层级网络进行处理得到基础特征,随后将提取得到的基础特征图,连同图像信息、真实边界框以及边界框数量馈送到RPN网络中,以获取预测的感兴趣区域特征,所述建议级特征对齐模块基于预测的感兴趣区域特征,进行roi池化,池化方式拟定三种POOLING_MODE模式,根据不同模式的实际效果选取最终池化方式,获取到的特征图馈送到对应通道数的层级网络,得到最终的查询特征;在所述类特征处理模块中,再引入一个共享FasterRCNN的主干网络的PRN,PRN接收图像数据,以推断它们的类注意力向量,输入图像先经过所述主干部分处理得到类数据的基础特征,随后基础特征进行最大池化、对应通道数的层级网络及sigmoid处理生成类注意力向量,即类数据特征;所述层级网络由输入每个层的块数目及其类型创建生成;所述特征聚合模块将特征处理模块获取到的类数据特征与查询特征分别逐次进行通道乘法、特征减法,得到的结果与查询特征按通道级联,完成特征聚合并得到聚合后的特征,特征聚合公式如下:Α(f
roi
,f
cls
)=[f
roi

f
cls
,f
roi

f
cls
,f
roi
]
ꢀꢀꢀꢀ
(1)其中,f
roi
表示查询特征,f
cls
表示类数据特征;预测器模块:为边界框分类和回归,包含边界框分类器和边界框回归器,二者均实现为两个大小为4096的全连接层,分别输出N
train
=|C
train
|个分类分数及每个RoI对应的N
train
个框回归;步骤4,训练深度学习网络模型:将生成的训练数据集中的图像进行预处理后,输入到深度学习网络模型,得到输出后图像与对应真值图一起送入目标函数计算损失,反向传播调整参数,直至目标函数收敛;步骤5,输出:最终输出图像中包含对象概率及边界框参数,对边界框分类和回归输出的结果进行处理,得到边界框信息,同时将聚合特征馈送到输入特征数为聚合特征维度、输出特征数为类别数量的全连接层以计算对象类别概率,标注生成的含有边界框信息及掩码信息的图像输入到训练好的深度网络模型得到预测输出。2.根据权利要求1所述的一种基于Meta RCNN的少样本目标检测方法,其特征在于,所述步骤2中RGB图像对应的边界框信息数据和掩码数据信息通过使用Labelimg和Labelme标注工具对拍摄的RGB图像进行标注来获取,具体步骤如下:首先使用Labelimg标注工具为所拍摄图像标注其对应的边界框,并标明框内对象的类
别,标注生成PASCAL VOC对应格式的xml...

【专利技术属性】
技术研发人员:韩慧妍贾剑利况立群熊风光张元杨晓文庞敏薛红新
申请(专利权)人:中北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1