基于Mask-RCNN的室内复杂环境下多目标检测方法技术

技术编号:37259785 阅读:22 留言:0更新日期:2023-04-20 23:34
本发明专利技术提供的一种基于Mask

【技术实现步骤摘要】
基于Mask

RCNN的室内复杂环境下多目标检测方法


[0001]本专利技术涉及一种图像检测方法,尤其涉及一种基于Mask

RCNN的室内复杂环境下多目标检测方法。

技术介绍

[0002]目标检测作为服务机器人的重要功能之一,通过采集目标环境中的图像信息,从而对目标环境中的待检测目标进行识别,现有技术中,对于检测目标的识别方法中基于深度学习的目标检测算法主要分为One stage和Two stage两大类,其中One Stage主要基于目标回归检测算法,直接从网络中提取特征并预测目标物体分类和位置,通常检测速度较快,但精度有待提高,如YOLOv4、EfficientDet、YOLOX等;Two stage主要采用区域建议算法(Region Proposal),先生成候选区域(即可能包含待检物体的预选框),再进行样本分类和边界框回归,通常检测精度较高,但速度较慢,如R

FCN、Faster RCNN、Cascade RCNN。
[0003]基于Mask RCNN的算法模型不仅能对目标物体检测和分类,还能够在此基础上进行实例分割,实现了精确到像素级的检测任务;但是,考虑到室内环境的多样性,目前Mask RCNN对于小目标检测、抗干扰检测等应用场景依然受到较大的限制,比如遮挡、光照不均以及背景干扰等,因此,现有的Mask RCNN的算法并不能对室内复杂环境中的目标进行准确识别检测。
[0004]因此,为了解决上述技术问题,亟需提出一种新的技术手段。

技术实现思路

[0005]有鉴于此,本专利技术的目的是提供基于Mask

RCNN的室内复杂环境下多目标检测方法,能够对室内复杂环境下对多个待检测目标进行准确识别,具有良好的干扰能力和较高的准确率,并且相对于传统算法效率更高,适应能力强。
[0006]本专利技术提供的一种基于Mask

RCNN的室内复杂环境下多目标检测方法,包括以下步骤:
[0007]S1.获取室内环境中需要识别的目标物体的图像信息,并将目标物体的图像信息采用Labelme工具进行标注,得到每张图像对应的json格式文件,然后转换成COCO数据集格式;
[0008]S2.构建Mask RCNN网络,并将CBAM注意力模块加入Mask RCNN网络的主干网络的残差网络中,得到改进型Mask RCNN网络;
[0009]S3.将转换成COCO数据集格式的图像信息划分为训练集和测试集,并将训练集输入至改进型Mask RCNN网络中进行训练;
[0010]S4.将测试集输入训练完成后的改进型Mask RCNN网络中进行测试,并判断改进型Mask RCNN网络的识别准确性,当达到准确性指标时,进入步骤S5;
[0011]S5.实时采集待测室内环境中的目标物体的图像信息,并输入至改进型Mask RCNN网络中进行多目标检测。
[0012]进一步,所述CBAM注意力模块包括通道注意模块和空间注意模块,其中:
[0013]通道注意模块处理输入的特征图F具体为:
[0014][0015]其中:F

为通道注意模块输出特征,AP表示全局平均池化,MP表示全局最大池化,MLP表示多层感知机操作,表示矩阵对应元素相加,表示矩阵对应元素相乘,σ表示sigmoid函数,定义为:
[0016][0017]空间注意模块对通道注意模块输出的特征F

处理的具体为:
[0018][0019]其中:F

为空间注意模块输出特征,Conv7×7表示7x7的卷积操作。
[0020]进一步,所述Mask RCNN网络包括主干网络、区域建议网络、Mask预测分支网络以及全连接层网络;其中,主干网络包括残差网络和特征金字塔网络;
[0021]输入的COCO数据集格式的图像信息在残差网络中进行下采样处理后得到不同尺度的特征图,然后传输至特征金字塔网络中进行上采样和多尺度融合处理,得到包括高层语义信息和底层轮廓信息的特征图;
[0022]将特征图输入至区域建议网络中进行处理,在特征图中对识别目标生成候选区域,形成多个目标候选框;
[0023]将区域建议网络输出的已生成候选区域的特征图输入至ROI Align中进行处理,并将处理后的结果输入至全连接层网络中进行分类识别处理,全连接层网络输出识别结果。
[0024]进一步,所述残差网络包括n个尺度不同的卷积模块组成;
[0025]其中,将n

1个卷积模块的输入输出顺次连接,顺次连接收的n

1个卷积模块对输入的COCO数据集格式的图像信息进行卷积处理并输出至CBAM注意力模块中进行处理;第n个卷积模块将输入的COCO数据集格式的图像信息处理后输出的特征图与CBAM注意力模块输出的特征图进行相加融合形成整个残差网络输出的特征图。
[0026]进一步,所述Mask RCNN网络的损失函数为:
[0027][0028]N
cls
表示预测框的数量;N
reg
表示特征图的像素点个数;
[0029]其中:分类损失函数
[0030]i表示每个目标候选框的索引,p
i
表示第i个目标候选框被预测为目标的概率,表示p
i
的真实类别标签;
[0031][0032]回归损失函数为:
[0033][0034]t
j
={t
x
,t
y
,t
w
,t
h
}表示第j个目标候选框相对于预测框的偏移量,
[0035]表示第j个目标候选框相对于真实框的偏移量;其中:
[0036][0037]x,y,w,h分别表示预测框的中心的横坐标、预测框的中心的横坐标、预测框的宽度和预测框的高度,x
a
,y
a
,w
a
,h
a
分别表示目标候选框的中心的横坐标、目标候选框的中心的横坐标、目标候选框的宽度和目标候选框的高度,x
*
,y
*
,w
*
,h
*
分别表示待测目标真实的中心的横坐标、待测目标真实的中心的横坐标、待测目标真实的宽度和待测目标真实的高度;
[0038]对于每个预测框,Mask预测分支网络对每个大小为p*p的特征进行编码,生成分辨率为p*p的二值掩膜,掩码损失函数为
[0039][0040]其中:y
mn
表示目标候选框的中心坐标点(m,n)的预测结果;表示(m,n)的Ground Truth。
[0041]进一步,步骤S1中:
[0042]获取室内环境中需要识别的目标物体的图像信息时,在不同的背景、不同角度和不同距离进行采集,而且采集后的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Mask

RCNN的室内复杂环境下多目标检测方法,其特征在于:包括以下步骤:S1.获取室内环境中需要识别的目标物体的图像信息,并将目标物体的图像信息采用Labelme工具进行标注,得到每张图像对应的json格式文件,然后转换成COCO数据集格式;S2.构建Mask RCNN网络,并将CBAM注意力模块加入Mask RCNN网络的主干网络的残差网络中,得到改进型Mask RCNN网络;S3.将转换成COCO数据集格式的图像信息划分为训练集和测试集,并将训练集输入至改进型Mask RCNN网络中进行训练;S4.将测试集输入训练完成后的改进型Mask RCNN网络中进行测试,并判断改进型Mask RCNN网络的识别准确性,当达到准确性指标时,进入步骤S5;S5.实时采集待测室内环境中的目标物体的图像信息,并输入至改进型Mask RCNN网络中进行多目标检测。2.根据权利要求1所述基于Mask

RCNN的室内复杂环境下多目标检测方法,其特征在于:所述CBAM注意力模块包括通道注意模块和空间注意模块,其中:通道注意模块处理输入的特征图F具体为:其中:F

为通道注意模块输出特征,AP表示全局平均池化,MP表示全局最大池化,MLP表示多层感知机操作,表示矩阵对应元素相加,表示矩阵对应元素相乘,σ表示sigmoid函数,定义为:空间注意模块对通道注意模块输出的特征F

处理的具体为:其中:F

为空间注意模块输出特征,Conv7×7表示7x7的卷积操作。3.根据权利要求1所述基于Mask

RCNN的室内复杂环境下多目标检测方法,其特征在于:所述Mask RCNN网络包括主干网络、区域建议网络、Mask预测分支网络以及全连接层网络;其中,主干网络包括残差网络和特征金字塔网络;输入的COCO数据集格式的图像信息在残差网络中进行下采样处理后得到不同尺度的特征图,然后传输至特征金字塔网络中进行上采样和多尺度融合处理,得到包括高层语义信息和底层轮廓信息的特征图;将特征图输入至区域建议网络中进行处理,在特征图中对识别目标生成候选区域,形成多个目标候选框;将区域建议网络输出的已生成候选区域的特征图输入至ROI Align中进行处理,并将处理后的结果输入至全连接层网络中进行分类识别处理,全连接层网络输出识别结果。4.根据权利要求3所述基于Mask

RCNN的室内复杂环境下多目标检测方法,其特征在于:所述残差网络包括n个...

【专利技术属性】
技术研发人员:刘宗敏王吉睿黎杰李祖锋敖文刚张会焱刘鹏达张龙发
申请(专利权)人:重庆工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1