一种基于多尺度图像和加权融合损失的小目标检测方法技术

技术编号:25044001 阅读:21 留言:0更新日期:2020-07-29 05:34
本发明专利技术属于图像、视频处理领域,涉及一种基于多尺度图像和加权融合损失的小目标检测方法,包括:基于改进Mask RCNN模型对多种不同尺度图像提取多组特征向量,对多组特征向量进行融合,构造特征金字塔;基于特征金字塔生成候选检测框并筛选得到建议检测框;将建议检测框对应回特征金字塔中产生它们的特征图中,在特征图上对齐截取;将对齐后的建议检测框输入分类器层,得到建议检测框的类别置信度和位置偏移量;在测试阶段,根据建议检测框的类别置信度得分大小筛选一定的建议检测框,并做非极大值抑制;在训练阶段,对检测小目标特征层计算出的损失函数进行加权,并与检测大、中目标层的损失函数融合,增强模型对小目标物体的敏感程度。

【技术实现步骤摘要】
一种基于多尺度图像和加权融合损失的小目标检测方法
本专利技术属于图像、视频处理领域,涉及一种基于多尺度图像和加权融合损失的小目标检测方法。
技术介绍
随着机器学习、深度学习的发展,依靠卷积神经网络强大的学习能力,模式识别、计算机视觉领域得到空前的关注与热度。在机器自动化、人工智能广泛普及的时代,摄像头扮演的角色愈发等同于人的眼睛,计算机视觉领域的发展显得尤其重要,并且得到了工业界和学术界的广泛关注。其中,目标检测在计算机视觉领域成果显著,并在不断进步当中。然而,图片、视频中的目标物体,绝大部分以极其微小的形式出现。通常有很多物体在一帧图片中所占像素极低,大部分像素低于49px,检测微小物体的任务显得艰巨而又十分重要。小目标检测的难点在于尺度,以单一尺寸输入网络模型提取特征信息,往往不能照顾到各个尺度大小的目标。虽然现有MaskRCNN模型在目标检测取得了不错的效果,但仍存在输入图像尺度单一、分辨率具有不确定性、上下文信息利用不充分、对小目标物体检测不敏感等问题。
技术实现思路
针对现有MaskRCNN模型的不足,本专利技术提供一种基于多尺度图像和加权融合损失的小目标检测方法。本专利技术采用如下技术方案实现:一种基于多尺度图像和加权融合损失的小目标检测方法,基于改进MaskRCNN模型实现,包括:S1、搭建改进的MaskRCNN模型;所述改进的MaskRCNN模型包括:残差骨干网络、特征金字塔网络层、区域生成网络层、感兴趣框对齐层、分类器层、损失函数计算层和测试层;<br>S2、构建图像金字塔:对原始图像进行缩放处理,将原始图像、缩小尺寸后的图像、放大尺寸后图像一起构成图像金字塔;S3、将图像金字塔中的图像进行随机裁剪;S4、将随机裁剪后的图像送入残差骨干网络进行卷积、批归一化、池化操作,输出多组不同尺寸的特征图;S5、将多组不同尺度的特征图进行融合,并进一步处理得到特征图P2-P6;S6、对特征图P2-P6分别生成未筛选的候选检测框;S7、将特征图P2-P6输入区域生成网络层,通过一系列卷积操作,得到候选检测框的偏移量以及置信度;S8、把S7的候选检测框的偏移量与S6得到的未筛选的候选检测框数据结合,筛选出设定量的候选检测框作为感兴趣检测框;S9、将感兴趣检测框分别对应回特征图P2-P6,并进行对齐操作;S10、将对齐操作的结果输入到分类层,输出预测的感兴趣检测框类别得分、类别概率、坐标偏移量;S11、将预测的感兴趣检测框类别得分、类别概率、坐标偏移量输入测试层,在测试层对类别概率取最大值进行筛选,选出感兴趣检测框对应的预测目标类别,进一步通过非极大值抑制过滤出多余的感兴趣检测框,最后在测试层得到最终预测的感兴趣检测框和对应的预测目标类别。进一步地,在训练阶段还包括:S12、将S10中预测的感兴趣检测框类别得分输入损失函数计算层,与实际类别标签一起作为交叉熵函数的输入,用来计算分类损失值,得到特征图P2-P6的类别预测损失;将S10中预测的感兴趣检测框坐标偏移量与真实目标框偏移量一起作为回归损失函数的输入,得到特征图P2-P6的回归预测损失;S13、将特征图P2、特征图P3的类别预测损失分别进行加权,并与特征图P4、特征图P5、特征图P6的类别预测损失相加得到总的类别预测损失;将特征图P2、特征图P3的回归预测损失分别进行加权,并与特征图P4、特征图P5、特征图P6的回归预测损失相加得到总的回归预测损失;S14、通过反向传播对改进MaskRCNN模型参数、权重进行迭代更新,具体地,总的类别预测损失与总的回归预测损失分别被利用,进行优化迭代、改变改进MaskRCNN模型的权重值。进一步地,改进的MaskRCNN模型所作改进包括:①、感兴趣检测框对齐不再统一对齐,而是分开对不同特征层进行对齐,对齐过后没有直接融合传入损失函数计算层,而是分别输入分类器层进行分别分类和回归,最终分开输入损失函数计算层,对检测小目标特征层计算出的损失函数进行加权,并与检测大、中目标层的损失函数融合;②、在原有MaskRCNN模型中增加一层有效特征层P6;③、去除原有MaskRCNN中图像分割模块,取消掩膜支路。优选地,S2中对原始图像进行缩放处理包括:缩放图片的公式表述为:Image_New=Image*scale(1)其中:Image_New代表缩放后的图片,Image代表缩放前的图片,scale表示缩放尺度;缩放尺度scale由以下因素决定:设缩放完成后最小边的长度不能小于min_dim,min()表示取最小值运算,h表示原图的高,w表示原图宽,则的当min_dim大于min(h,w)时,scale=min_dim/min(h,w)(2)否则scale=1;设缩放完成后最长边的长度为max_dim,如果按照式(2)来进行缩放图片,若缩放后的图片的最长边已经超过了max_dim时,则令:scale=max_dim/image_max(3)否则继续按scale=min_dim/min(h,w)来进行缩放;最后的缩放完成的图片大小尺寸为max_dim*max_dim,另外,如果最后缩放的尺度scale大于1,即放大原图,则将用双线性插值法进行放大;对于最后缩放后的图片不足max_dim*max_dim的部分,采用零值填充像素值。优选地,S3中随机裁剪图片的公式表述如下:Y1=randi([0,image_size(1)-crop_size(1)])(4)X1=randi([0,image_size(2)-crop_size(2)])(5)其中:Y1和X1分别表示裁剪图片开始的左下角纵坐标和左下角横坐标;randi表示随机取数,取数范围是小括号里面的范围;image_size是裁剪前的图片尺寸,第一维存放图片宽度,第二维存放图片长度;crop_size是需要裁剪出来的区域尺寸,第一维存放区域宽度,第二维存放区域长度;Y2=min(image_size(1),Y1+crop_size(1))(6)X2=min(image_size(2),X1+crop_size(2))(7)其中:Y2和X2分别表示裁剪图片开始的右上角纵坐标和右上角横坐标;randi表示随机取数;min()表示取最小值;利用式(4)-式(7)求得的两个坐标确定裁剪的具体位置,如果裁剪区域溢出原图,将进行pad填充,得到裁剪后的图像。优选地,残差骨干网络的卷积包括block1、block2两类卷积模块,其中:卷积模块block1工作流程包括:①、对于分支1,输出与输入保持一致不变;②、对于分支2,依次使用1*1卷积核、3*3卷积核、1*1卷积核进行卷积操作,并在每次卷积完成后对输出的特征向量进行均值归一化;卷积模块block2工作本文档来自技高网...

【技术保护点】
1.一种基于多尺度图像和加权融合损失的小目标检测方法,其特征在于,基于改进Mask RCNN模型实现,包括:/nS1、搭建改进的Mask RCNN模型;所述改进的Mask RCNN模型包括:残差骨干网络、特征金字塔网络层、区域生成网络层、感兴趣框对齐层、分类器层、损失函数计算层和测试层;/nS2、构建图像金字塔:对原始图像进行缩放处理,将原始图像、缩小尺寸后的图像、放大尺寸后图像一起构成图像金字塔;/nS3、将图像金字塔中的图像进行随机裁剪;/nS4、将随机裁剪后的图像送入残差骨干网络进行卷积、批归一化、池化操作,输出多组不同尺寸的特征图;/nS5、将多组不同尺度的特征图进行融合,并进一步处理得到特征图P2-P6;/nS6、对特征图P2-P6分别生成未筛选的候选检测框;/nS7、将特征图P2-P6输入区域生成网络层,通过一系列卷积操作,得到候选检测框的偏移量以及置信度;/nS8、把S7的候选检测框的偏移量与S6得到的未筛选的候选检测框数据结合,筛选出设定量的候选检测框作为感兴趣检测框;/nS9、将感兴趣检测框分别对应回特征图P2-P6,并进行对齐操作;/nS10、将对齐操作的结果输入到分类层,输出预测的感兴趣检测框类别得分、类别概率、坐标偏移量;/nS11、将预测的感兴趣检测框类别得分、类别概率、坐标偏移量输入测试层,在测试层对类别概率取最大值进行筛选,选出感兴趣检测框对应的预测目标类别,进一步通过非极大值抑制过滤出多余的感兴趣检测框,最后在测试层得到最终预测的感兴趣检测框和对应的预测目标类别。/n...

【技术特征摘要】
1.一种基于多尺度图像和加权融合损失的小目标检测方法,其特征在于,基于改进MaskRCNN模型实现,包括:
S1、搭建改进的MaskRCNN模型;所述改进的MaskRCNN模型包括:残差骨干网络、特征金字塔网络层、区域生成网络层、感兴趣框对齐层、分类器层、损失函数计算层和测试层;
S2、构建图像金字塔:对原始图像进行缩放处理,将原始图像、缩小尺寸后的图像、放大尺寸后图像一起构成图像金字塔;
S3、将图像金字塔中的图像进行随机裁剪;
S4、将随机裁剪后的图像送入残差骨干网络进行卷积、批归一化、池化操作,输出多组不同尺寸的特征图;
S5、将多组不同尺度的特征图进行融合,并进一步处理得到特征图P2-P6;
S6、对特征图P2-P6分别生成未筛选的候选检测框;
S7、将特征图P2-P6输入区域生成网络层,通过一系列卷积操作,得到候选检测框的偏移量以及置信度;
S8、把S7的候选检测框的偏移量与S6得到的未筛选的候选检测框数据结合,筛选出设定量的候选检测框作为感兴趣检测框;
S9、将感兴趣检测框分别对应回特征图P2-P6,并进行对齐操作;
S10、将对齐操作的结果输入到分类层,输出预测的感兴趣检测框类别得分、类别概率、坐标偏移量;
S11、将预测的感兴趣检测框类别得分、类别概率、坐标偏移量输入测试层,在测试层对类别概率取最大值进行筛选,选出感兴趣检测框对应的预测目标类别,进一步通过非极大值抑制过滤出多余的感兴趣检测框,最后在测试层得到最终预测的感兴趣检测框和对应的预测目标类别。


2.根据权利要求1所述的小目标检测方法,其特征在于,在训练阶段还包括:
S12、将S10中预测的感兴趣检测框类别得分输入损失函数计算层,与实际类别标签一起作为交叉熵函数的输入,用来计算分类损失值,得到特征图P2-P6的类别预测损失;
将S10中预测的感兴趣检测框坐标偏移量与真实目标框偏移量一起作为回归损失函数的输入,得到特征图P2-P6的回归预测损失;
S13、将特征图P2、特征图P3的类别预测损失分别进行加权,并与特征图P4、特征图P5、特征图P6的类别预测损失相加得到总的类别预测损失;
将特征图P2、特征图P3的回归预测损失分别进行加权,并与特征图P4、特征图P5、特征图P6的回归预测损失相加得到总的回归预测损失;
S14、通过反向传播对改进MaskRCNN模型参数、权重进行迭代更新,具体地,总的类别预测损失与总的回归预测损失分别被利用,进行优化迭代、更新改进MaskRCNN模型的权重值。


3.根据权利要求1所述的小目标检测方法,其特征在于,改进的MaskRCNN模型所作改进包括:
①、感兴趣检测框对齐不再统一对齐,而是分开对不同特征层进行对齐,对齐过后没有直接融合传入损失函数计算层,而是分别输入分类器层进行分别分类和回归,最终分开输入损失函数计算层,对检测小目标特征层计算出的损失函数进行加权,并与检测大、中目标层的损失函数融合;
②、在原有MaskRCNN模型中增加一层有效特征层P6;
③、去除原有MaskRCNN中图像分割模块,取消掩膜支路。


4.根据权利要求1所述的小目标检测方法,其特征在于,S2中对原始图像进行缩放处理包括:
缩放图片的公式表述为:
Image_New=Image*scale(1)
其中:Image_New代表缩放后的图片,Image代表缩放前的图片,scale表示缩放尺度;
缩放尺度scale由以下因素决定:
设缩放完成后最小边的长度不能小于min_dim,min()表示取最小值运算,h表示原图的高,w表示原图宽,则的当min_dim大于min(h,w)时,
scale=min_dim/min(h,w)(2)
否则scale=1;
设缩放完成后最长边的长度为max_dim,如果按照式(2)来进行缩放图片,若缩放后的图片的最长边已经超过了max_dim时,则令:
scale=max_dim/image_max(3)
否则继续按scale=min_dim/min(h,w)来进行缩放;
最后的缩放完成的图片大小尺寸为max_dim*max_dim,另外,如果最后缩放的尺度scale大于1,即放大原图,则将用...

【专利技术属性】
技术研发人员:林坤阳罗家祥
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1