一种基于卷积神经网络模型的目标检测识别方法技术

技术编号:31018032 阅读:19 留言:0更新日期:2021-11-30 03:02
本发明专利技术提供了一种基于卷积神经网络模型的目标检测识别方法,首先构建Dense

【技术实现步骤摘要】
一种基于卷积神经网络模型的目标检测识别方法


[0001]本专利技术涉及一种基于卷积神经网络模型的目标检测识别方法。

技术介绍

[0002]近年来随着计算机视觉以及人工智能技术的发展,目标检测识别的神经网络模型越来越多。在计算机视觉领域,目标检测是很基础也很重要的任务,行人检测、自动驾驶、人体姿态估计等技术都需要依赖于底层的目标检测。但是由于待检测的目标大小和姿态通常都不相同,并且目标经常伴随着遮挡和光照条件不同等因素,导致目标检测识别算法极具挑战性。
[0003]从理论上讲,加深网络结构模型会取得很好的识别效果。然而,大量实验结果表明,深层的网络结构存在退化问题,后面的卷积层并未完全获取到前面卷积层提取到的特征信息。当图像中存在不同尺度的目标时,检测效果较差。特别是小目标,由于目标本身像素数量较少,经过网络的多倍采样,会导致目标信息量大幅下降甚至丢失,造成目标漏检。而且网络输出的预测框坐标通常是确定性坐标值,预测框的置信度未知,因此预测的准确性很难评估。
[0004]综上所述,需要一种能够解决深层的网络结构存在退化问题,并且对多尺度目标检测有较好效果,而且可以得出预测框置信度信息的卷计神经网络模型。而实现该手段,则需要解决以下关键问题:(1)深层网络结构存在退化问题。(2)小尺度目标检测问题。(3)获取预测框置信度信息。

技术实现思路

[0005]专利技术目的:针对当前卷积神经网络算法对小目标的检测准确率不高,存在误检、漏检的问题,本专利技术提供一种基于卷积神经网络模型的目标检测识别方法,可提升对小目标的检出率,降低漏检率,并采用Gaussion建模,输出检测框的不确定性信息。
[0006]技术方案:
[0007]本专利技术设计了一种基于卷积神经网络模型的目标检测识别方法。可以提高目标检测识别的准确率。
[0008]本专利技术技术方案的实施步骤包括:
[0009]步骤1,构建Dense

Spp

Gaussion目标检测网络模型,
[0010]步骤2,损失函数中置信度和类别得分预测分支采用最小平方和误差,预测框采用负对数似然损失,利用训练数据集和目标边界框先验信息,训练步骤一所构建的Dense

Spp

Gaussion目标检测模型直至损失函数收敛。
[0011]步骤3,输入被测目标图像,利用训练好的Dense

Spp

Gaussion模型检测图像中的目标,输出图像中每个目标的边界框位置、尺寸以及目标类别。
[0012]步骤1中,所述Dense

Spp

Gaussion目标检测网络模型,包括密集连接DenseNet网络、空间金字塔池化结构SPP(Spatial Pyramid Pooling)、目标检测层和高斯模型
(Gaussion),空间金字塔池化结构SPP用于融合多尺度图像局部区域特征,目标检测层对顶层特征图两次上采样,并与底层特征图进行融合。
[0013]采用密集连接DenseNet网络为骨干网络,在DenseNet网络与目标检测层之间引入空间金字塔池化结构(Spatial Pyramid Pooling),融合多尺度图像局部区域特征。
[0014]通过进行32倍、16倍、8和4倍降采样获取四种尺度下的特征图,用以适应不同尺度目标的检测输出,对顶层特征图两次上采样,并与底层特征图进行融合。
[0015]增加Gaussian模型对网络输出进行建模,能够输出每个预测框的可靠性,从而提升目标框和算法识别的精度。
[0016]步骤1中,所述DenseNet网络包括两个以上密集卷积块DenseBlock,单个密集卷积块DenseBlock中包括1个1
×
1的卷积核和4个3
×
3卷积核,每个3
×
3卷积核后还加入BatchNormalization批归一化层和Relu激活函数。
[0017]密集卷积块DenseBlock的密集连接方式第L层的输出x
l
为:
[0018]x
l
=H
l
([x0,x1,

,x
l
‑1])
[0019]其中,H
l
表示非线性变换,随着层数增加,就会将大量线性函数进行复合。[x0,x1,

,x
l
‑1]表示第0到L

1层输出的特征做通道合并。
[0020]步骤1中,所述DenseNet网络中共有4个密集卷积块集合,4个密集卷积块集合中密集卷积块的数量分别为6、12、24、16,密集卷积块集合之间由转移层连接,转移层为大小为2
×
2、步长为2的卷积核进行均值池化;
[0021]将4个密集卷积块集合产生的32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图,分别为(13,13)、(26,26)、(52,52)、(104,104),在(13,13)特征图上引入空间金字塔池化结构(SPP),融合多尺度图像局部区域特征,池化窗口尺寸S
pool
×
S
pool
为:
[0022][0023]其中,S
map
表示输入特征图尺寸,S
pool
表示池化操作后特征图尺寸,n
i
为缩小倍数,池化步长都为1,采用边界填充保证池化后特征图尺寸不变,然后将不同池化输出结果进行特征合并。
[0024]经过32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图输入4个不同的通道(y1,y2,y3,y4),其中经过空间金字塔池化结构SPP的(13,13)特征图输入y1通道;(13,13)特征图经过2倍上采样后与(26,26)特征图特征合并输入y2通道,同样合并后的(26,26)特征图经过2倍上采样后与(52,52)特征图特征合并输入y3通道,合并后的(52,52)特征图经过2倍上采样后与(104,104)特征图特征合并输入y4通道;
[0025]增加高斯模型对4个通道的输出结果进行建模,模型输出为:
[0026]S
×
S
×
(K*(9+N))
[0027]S表示特征图尺寸,分别为104、52、26和13,K为该尺寸特征图下先验框数量。9+N为每个网格预测的结果:
[0028][0029]表示预测框的位置信息,分别为中心点的x坐标、y坐标、宽和
高,分别为x坐标的标准差信息、y坐标的标准差信息、宽的标准差信息和高的标准差信息,用来估计坐标信息的可靠性。P
obj
表示是否是目标的可靠性信息,P
n
表示第n个种类的可靠性信息;
[0030]进行以下变换:
[0031][0032][0033本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于卷积神经网络模型的目标检测识别方法,其特征在于,包括如下步骤:步骤1,构建Dense

Spp

Gaussion目标检测网络模型;步骤2,训练Dense

Spp

Gaussion目标检测网络模型直至损失函数收敛;步骤3,输入被检测目标图像,利用训练好的Dense

Spp

Gaussion目标检测网络模型检测图像中的目标,输出图像中每个目标的边界框位置、尺寸以及目标类别。2.根据权利要求1所述的方法,其特征在于,步骤1中,所述Dense

Spp

Gaussion目标检测网络模型,包括密集连接DenseNet网络、空间金字塔池化结构SPP、目标检测层和高斯模型,空间金字塔池化结构SPP用于融合多尺度图像局部区域特征,目标检测层对顶层特征图两次上采样,并与底层特征图进行融合。3.根据权利要求2所述的方法,其特征在于,步骤1中,所述DenseNet网络包括两个以上密集卷积块DenseBlock,单个密集卷积块DenseBlock中包括1个1
×
1的卷积核和4个3
×
3卷积核,每个3
×
3卷积核后还加入BatchNormalization批归一化层和Relu激活函数;密集卷积块DenseBlock的密集连接方式第L层的输出x
l
为:x
l
=H
l
([x0,x1,

,x
l
‑1])其中,H
l
表示非线性变换,[x0,x1,

,x
l
‑1]表示第0到L

1层输出的特征做通道合并。4.根据权利要求3所述的方法,其特征在于,步骤1中,所述DenseNet网络中共有4个密集卷积块集合,4个密集卷积块集合中密集卷积块的数量分别为6、12、24、16,密集卷积块集合之间由转移层连接,转移层为大小为2
×
2、步长为2的卷积核进行均值池化;将4个密集卷积块集合产生的32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图,分别为(13,13)、(26,26)、(52,52)、(104,104),在(13,13)特征图上引入空间金字塔池化结构SPP,融合多尺度图像局部区域特征,池化窗口尺寸S
pool
×
S
pool
为:其中,S
map
表示输入特征图尺寸,S
pool
表示池化操作后特征图尺寸,n
i
为缩小倍数,池化步长都为1,采用边界填充保证池化后特征图尺寸不变,然后将不同池化输出结果进行特征合并;经过32倍、16倍、8和4倍降采样得到的4个不同尺度的特征图输入4个不同的通道(y1,y2,y3,y4),其中经过空间金字塔池化结构SPP的(13,13)特征图输入y1通道;(13,13)特征图经过2倍上采样后与(26,26)特征图特征合并输入y2通道,同样合并后的(26,26)特征图经过2倍上采样后与(52,52)特征图特征合并输入y3通道,合并后的(52,52)特征图经过2倍上采样后与(104,104)特征图特征合并输入y4通道;增加高斯模型对4个通道的输出结果进行建模,模型输出为:S
×
S
×
(K*(9+N))S表示特征图尺寸,分别为104、52、26和13,K为4个不同尺寸特征图对应的先验框数量;9+N为每个网格预测的结果,具体如下所示:为每个网格预测的结果,具体如下所示:表示预测框的位置信息,分别为中心点的x坐标、y坐标、宽和高,
分别为x坐标的标准差信息、y坐标的标准差信息、宽的标准差信息和高的标准差信息,用来估计坐标信息的可靠性;P

【专利技术属性】
技术研发人员:朱伟张胜男刘羽吉咸阳蒋立飞张典辛付豪
申请(专利权)人:南京莱斯电子设备有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1