一种基于多尺度图像和加权融合损失的小目标检测方法技术

技术编号：25044001 阅读：21 留言：0更新日期：2020-07-29 05:34

本发明专利技术属于图像、视频处理领域，涉及一种基于多尺度图像和加权融合损失的小目标检测方法，包括：基于改进Mask RCNN模型对多种不同尺度图像提取多组特征向量，对多组特征向量进行融合，构造特征金字塔；基于特征金字塔生成候选检测框并筛选得到建议检测框；将建议检测框对应回特征金字塔中产生它们的特征图中，在特征图上对齐截取；将对齐后的建议检测框输入分类器层，得到建议检测框的类别置信度和位置偏移量；在测试阶段，根据建议检测框的类别置信度得分大小筛选一定的建议检测框，并做非极大值抑制；在训练阶段，对检测小目标特征层计算出的损失函数进行加权，并与检测大、中目标层的损失函数融合，增强模型对小目标物体的敏感程度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多尺度图像和加权融合损失的小目标检测方法
本专利技术属于图像、视频处理领域，涉及一种基于多尺度图像和加权融合损失的小目标检测方法。
技术介绍
随着机器学习、深度学习的发展，依靠卷积神经网络强大的学习能力，模式识别、计算机视觉领域得到空前的关注与热度。在机器自动化、人工智能广泛普及的时代，摄像头扮演的角色愈发等同于人的眼睛，计算机视觉领域的发展显得尤其重要，并且得到了工业界和学术界的广泛关注。其中，目标检测在计算机视觉领域成果显著，并在不断进步当中。然而，图片、视频中的目标物体，绝大部分以极其微小的形式出现。通常有很多物体在一帧图片中所占像素极低，大部分像素低于49px，检测微小物体的任务显得艰巨而又十分重要。小目标检测的难点在于尺度，以单一尺寸输入网络模型提取特征信息，往往不能照顾到各个尺度大小的目标。虽然现有MaskRCNN模型在目标检测取得了不错的效果，但仍存在输入图像尺度单一、分辨率具有不确定性、上下文信息利用不充分、对小目标物体检测不敏感等问题。
技术实现思路
针对现有MaskRCNN模型的不足，本专利技术提供一种基于多尺度图像和加权融合损失的小目标检测方法。本专利技术采用如下技术方案实现：一种基于多尺度图像和加权融合损失的小目标检测方法，基于改进MaskRCNN模型实现，包括：S1、搭建改进的MaskRCNN模型；所述改进的MaskRCNN模型包括：残差骨干网络、特征金字塔网络层、区域生成网络层、感兴趣框对齐层、分类器层、损失函数计算层和测试层；<...

【技术保护点】
1.一种基于多尺度图像和加权融合损失的小目标检测方法，其特征在于，基于改进Mask RCNN模型实现，包括：/nS1、搭建改进的Mask RCNN模型；所述改进的Mask RCNN模型包括：残差骨干网络、特征金字塔网络层、区域生成网络层、感兴趣框对齐层、分类器层、损失函数计算层和测试层；/nS2、构建图像金字塔：对原始图像进行缩放处理，将原始图像、缩小尺寸后的图像、放大尺寸后图像一起构成图像金字塔；/nS3、将图像金字塔中的图像进行随机裁剪；/nS4、将随机裁剪后的图像送入残差骨干网络进行卷积、批归一化、池化操作，输出多组不同尺寸的特征图；/nS5、将多组不同尺度的特征图进行融合，并进一步处理得到特征图P2-P6；/nS6、对特征图P2-P6分别生成未筛选的候选检测框；/nS7、将特征图P2-P6输入区域生成网络层，通过一系列卷积操作，得到候选检测框的偏移量以及置信度；/nS8、把S7的候选检测框的偏移量与S6得到的未筛选的候选检测框数据结合，筛选出设定量的候选检测框作为感兴趣检测框；/nS9、将感兴趣检测框分别对应回特征图P2-P6，并进行对齐操作；/nS10、将对齐操作的结果输入到...

【技术特征摘要】
1.一种基于多尺度图像和加权融合损失的小目标检测方法，其特征在于，基于改进MaskRCNN模型实现，包括：
S1、搭建改进的MaskRCNN模型；所述改进的MaskRCNN模型包括：残差骨干网络、特征金字塔网络层、区域生成网络层、感兴趣框对齐层、分类器层、损失函数计算层和测试层；
S2、构建图像金字塔：对原始图像进行缩放处理，将原始图像、缩小尺寸后的图像、放大尺寸后图像一起构成图像金字塔；
S3、将图像金字塔中的图像进行随机裁剪；
S4、将随机裁剪后的图像送入残差骨干网络进行卷积、批归一化、池化操作，输出多组不同尺寸的特征图；
S5、将多组不同尺度的特征图进行融合，并进一步处理得到特征图P2-P6；
S6、对特征图P2-P6分别生成未筛选的候选检测框；
S7、将特征图P2-P6输入区域生成网络层，通过一系列卷积操作，得到候选检测框的偏移量以及置信度；
S8、把S7的候选检测框的偏移量与S6得到的未筛选的候选检测框数据结合，筛选出设定量的候选检测框作为感兴趣检测框；
S9、将感兴趣检测框分别对应回特征图P2-P6，并进行对齐操作；
S10、将对齐操作的结果输入到分类层，输出预测的感兴趣检测框类别得分、类别概率、坐标偏移量；
S11、将预测的感兴趣检测框类别得分、类别概率、坐标偏移量输入测试层，在测试层对类别概率取最大值进行筛选，选出感兴趣检测框对应的预测目标类别，进一步通过非极大值抑制过滤出多余的感兴趣检测框，最后在测试层得到最终预测的感兴趣检测框和对应的预测目标类别。

2.根据权利要求1所述的小目标检测方法，其特征在于，在训练阶段还包括：
S12、将S10中预测的感兴趣检测框类别得分输入损失函数计算层，与实际类别标签一起作为交叉熵函数的输入，用来计算分类损失值，得到特征图P2-P6的类别预测损失；
将S10中预测的感兴趣检测框坐标偏移量与真实目标框偏移量一起作为回归损失函数的输入，得到特征图P2-P6的回归预测损失；
S13、将特征图P2、特征图P3的类别预测损失分别进行加权，并与特征图P4、特征图P5、特征图P6的类别预测损失相加得到总的类别预测损失；
将特征图P2、特征图P3的回归预测损失分别进行加权，并与特征图P4、特征图P5、特征图P6的回归预测损失相加得到总的回归预测损失；
S14、通过反向传播对改进MaskRCNN模型参数、权重进行迭代更新，具体地，总的类别预测损失与总的回归预测损失分别被利用，进行优化迭代、更新改进MaskRCNN模型的权重值。

3.根据权利要求1所述的小目标检测方法，其特征在于，改进的MaskRCNN模型所作改进包括：
①、感兴趣检测框对齐不再统一对齐，而是分开对不同特征层进行对齐，对齐过后没有直接融合传入损失函数计算层，而是分别输入分类器层进行分别分类和回归，最终分开输入损失函数计算层，对检测小目标特征层计算出的损失函数进行加权，并与检测大、中目标层的损失函数融合；
②、在原有MaskRCNN模型中增加一层有效特征层P6；
③、去除原有MaskRCNN中图像分割模块，取消掩膜支路。

4.根据权利要求1所述的小目标检测方法，其特征在于，S2中对原始图像进行缩放处理包括：
缩放图片的公式表述为：
Image_New＝Image*scale(1)
其中：Image_New代表缩放后的图片，Image代表缩放前的图片，scale表示缩放尺度；
缩放尺度scale由以下因素决定：
设缩放完成后最小边的长度不能小于min_dim，min()表示取最小值运算，h表示原图的高，w表示原图宽，则的当min_dim大于min(h，w)时，
scale＝min_dim/min(h，w)(2)
否则scale＝1；
设缩放完成后最长边的长度为max_dim，如果按照式(2)来进行缩放图片，若缩放后的图片的最长边已经超过了max_dim时，则令：
scale＝max_dim/image_max(3)
否则继续按scale＝min_dim/min(h，w)来进行缩放；
最后的缩放完成的图片大小尺寸为max_dim*max_dim，另外，如果最后缩放的尺度scale大于1，即放大原图，则将用...

【专利技术属性】
技术研发人员：林坤阳，罗家祥，
申请(专利权)人：华南理工大学，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人