一种基于深度卷积神经网络的多尺度目标检测方法技术

技术编号:19009543 阅读:36 留言:0更新日期:2018-09-22 09:21
本发明专利技术公开了一种基于深度卷积神经网络的多尺度目标检测方法,包括步骤:1)数据获取;2)数据处理;3)模型构建;4)定义损失函数;5)模型训练;6)模型验证。本发明专利技术结合了深度卷积神经网络提取图像高层语义信息的能力,区域生成网络生成候选区域的能力,有内容感知能力的感兴趣区域池化层的修补和映射能力,以及多任务分类网络的精准分类能力,更准确高效地完成多尺度目标检测。

A multi-scale target detection method based on deep convolution neural network

The invention discloses a multi-scale target detection method based on depth convolution neural network, which comprises steps: 1) data acquisition; 2) data processing; 3) model construction; 4) loss function definition; 5) model training; 6) model verification. The invention combines the ability of deep convolution neural network to extract high-level semantic information of image, the ability of region generation network to generate candidate regions, the ability of patching and mapping of pooling layer of region of interest with content perception, and the ability of accurate classification of multi-task classification network to achieve multi-scale goals more accurately and efficiently. Testing.

【技术实现步骤摘要】
一种基于深度卷积神经网络的多尺度目标检测方法
本专利技术涉及计算机图像处理的
,尤其是指一种基于深度卷积神经网络的多尺度目标检测方法。
技术介绍
目标检测与识别是计算机视觉计算领域的重要课题之一。随着人类科学技术的发展,目标检测这一重要技术不断地得到充分利用,人们把它运用到各种场景中,实现各种预期目标,如战场警戒、安全检测、交通管制、视频监控等都方面。近些年,随着深度学习的快速发展,深度卷积神经网络在目标检测与识别技术上也有进一步的突破。利用深度卷积神经网络,可以提取到图片的高层语义特征信息,然后再利用这些高层语义信息进行目标的检测。神经网络越深,其所表达的特征信息就更具有代表性,但是其存在的问题是,对小尺度物体则表达的非常粗糙,甚至会使得小尺度物体的部分特征丢失,而且,神经网络对大小尺度非常敏感,不同大小尺度的物体经过神经网络所提取到的特征信息存在很大的差异性,导致小尺度物体检测的准确率低,从而大大降低了目标检测的鲁棒性和有效性。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提出了一种深度卷积神经网络的多尺度目标检测方法,该方法可以很好的将大小尺度的目标检测出来,突破了之前方法中无法很好检测出大小尺度差异很大的同类目标的限制。为实现上述目的,本专利技术所提供的技术方案为:一种基于深度卷积神经网络的多尺度目标检测方法,包括以下步骤:1)数据获取训练深度卷积神经网络需要大量的训练数据,因此需要使用大规模的自然图像或视频图像数据,如果得到的图像数据没有标签数据则需要进行人工标注,然后划分为训练数据集以及验证数据集;2)数据处理将图像数据集的图像和标签数据通过预处理转化为训练深度卷积神经网络所需要的格式;3)模型构建根据训练目标以及模型的输入输出形式,构造出一个适用于多尺度目标检测问题的深度卷积神经网络;4)定义损失函数根据训练目标以及模型的架构,定义出所需的损失函数;5)模型训练初始化各层网络的参数,不断迭代输入训练样本,根据损失函数计算得到网络的损失值,再通过反向传播计算出各网络层参数的梯度,通过随机梯度下降法对各层网络的参数进行更新;6)模型验证使用验证数据集对训练得到的模型进行验证,测试其泛化性能。所述步骤2)包括以下步骤:2.1)将数据集中的图像缩放到长和宽为m×n像素大小,标签数据也根据相应的比例缩放到相应的大小;2.2)在缩放后的图像,随机裁剪包含有标签的地方得到a×b像素大小的矩形图像,a<=m,b<=n;2.3)以0.5的概率随机水平翻转裁剪后的图像;2.4)将随机翻转后的图像从[0,255]转换到[-1,1]的范围内。所述步骤3)包括以下步骤:3.1)构造特征提取网络模型特征提取网络相当于一个编码器,用于从输入的图像中提取出高层的语义信息并保存到一个低维的编码中,特征提取网络的输入为经过步骤2)处理的图像,小物体在越深层的编码中会丢失部分信息,因此为了减少保全更多的信息,输出低维和较低维的特征编码;为了实现从输入到一系列输出的转换,特征提取网络包含多个级联的下采样层,下采样层由串联的卷积层、批量正则化层、以及非线性激活函数层、池化层组成,其中卷积层步长为1,卷积核大小为3×3,提取出相应的特征图,批量正则化层通过归一化同一个批次的输入样本的均值和标准差,起到稳定和加速模型训练的作用,非线性激活层的加入防止模型退化为简单的线性模型,提高模型的描述能力,池化层的作用是缩小特征图的大小,这样能够增加卷积核的感受野;3.2)构造区域生成网络模型区域生成网络主要负责找到输入图中所有的物体和它们的位置;区域生成网络的输入特征图,然后把这个特征图上的每一个点映射回原图,得到这些点的坐标,再在这些点周围取一些提前设定好的不同大小不同长宽比例的候选框,并计算出每个框是物体的概率分数;其中,区域生成网络的输入为步骤3.1)特征提取网络的输出,输出一系列候选框的坐标和其是物体的概率;为了实现从输入到输出的一系列转换,区域生成网络模型包括3个串联的功能结构,有卷积层、批量正则化层、非线性激活函数层,第一个功能结构是将输入进行3×3大小的特征融合,融合周边的信息,并分别作为第二和第三个功能结构的输入,第二个功能结构实现输出矩形框的坐标信息,第三个功能结构实现输出对应矩形框是物体的分数;3.3)构造有内容感知能力的感兴趣区域池化层有内容感知能力的感兴趣区域池化层的作用是实现从原图的目标区域映射到所述步骤3.1)得到的低维编码区域,再池化到固定大小的功能,而有内容感知能力则表现在以下两方面:3.3.1)信息补全信息补全是为了补全小目标在低维编码时丢失的信息,让小目标的检测更准确;针对从原图的目标区域映射到所述步骤3.1)的低维编码的特征图,若其长和宽其中一个大于z,z的取值根据网络需求而定,另一个小于z,则通过反卷积的方式将其放大到边长为max(长,宽)的正方形,再进行池化操作;若其长和宽都小于z,则长宽通过反卷积的方式放大到原来的2倍,再进行池化操作;若其长和宽都大于z,则直接进行后续的池化操作;3.3.2)划分大小对所述步骤3.2)输出原图的目标区域进行划分大小,根据准备的训练数据集中所有标签框的面积的均值,若所述步骤3.2)输出的矩形框的面积小于该均值,标记为小目标输出,而大于或等于该均值的,标记为大目标输出;3.4)构造多任务分类网络多任务分类网络是为了分别识别大尺度和小尺度的目标,防止大和小尺度的目标的低维编码不同导致的分类错误;根据步骤3.3)得到的大小两类矩形框,分别输入两个分类网络;分类网络输出类别的分数用以分类任务,以及精修选框的位置用于回归任务,为了完成分类和回归任务,该网络包含全连接层、非线性激活函数层、信号丢失层,全连接层起到将学到的“分布式特征表示”映射到样本标记空间的作用,非线性激活层的加入防止了模型退化为简单的线性模型,提高模型的描述能力,信号丢失层以0.5的概率让神经元不工作,让训练过程收敛更快,防止过拟合;最后将大小分类网络的输出结果进行融合,作为最终输出;所述步骤4)包括以下步骤:4.1)定义区域生成网络的损失函数区域生成网络用于在低维的编码中得到输入图感兴趣区域的坐标和该区域是否为前景的分数,即回归任务和分类任务,定义损失函数使输出的选框尽可能的接近标准参考框的位置;因此,回归任务的损失函数能够定义为平滑化曼哈顿距离损失损失(SmoothL1Loss),公式如下所示:其中,Lreg为回归损失,v和t分别表示预测框的位置和其对应的标准参考框的位置,x和y表示左上角坐标值,w和h分别表示矩形框的宽和高;分类任务的损失函数定义为柔性最大化损失(SoftmaxLoss),公式如下所示:xi=xi-max(x1,...,xn)Lcls=-logpk其中,x为网络的输出,n表示总类别数,p表示每一类的概率,Lcls为分类损失,k表示标签的类别;4.2)定义分类网络的损失函数分类网络输出类别的分数用于分类任务,以及精修选框的位置用于回归任务,定义损失函数使其输出的类别尽可能的和标签数据一致,同时使其输出的选框位置尽可能的和标准参考框的位置一致;同样如步骤4.1),回归任务的损失函数能够定义为SmoothL1Loss,分类任务的损失函数定义为Sof本文档来自技高网...
一种基于深度卷积神经网络的多尺度目标检测方法

【技术保护点】
1.一种基于深度卷积神经网络的多尺度目标检测方法,其特征在于,包括以下步骤:1)数据获取训练深度卷积神经网络需要大量的训练数据,因此需要使用大规模的自然图像或视频图像数据,如果得到的图像数据没有标签数据则需要进行人工标注,然后划分为训练数据集以及验证数据集;2)数据处理将图像数据集的图像和标签数据通过预处理转化为训练深度卷积神经网络所需要的格式;3)模型构建根据训练目标以及模型的输入输出形式,构造出一个适用于多尺度目标检测问题的深度卷积神经网络;4)定义损失函数根据训练目标以及模型的架构,定义出所需的损失函数;5)模型训练初始化各层网络的参数,不断迭代输入训练样本,根据损失函数计算得到网络的损失值,再通过反向传播计算出各网络层参数的梯度,通过随机梯度下降法对各层网络的参数进行更新;6)模型验证使用验证数据集对训练得到的模型进行验证,测试其泛化性能。

【技术特征摘要】
1.一种基于深度卷积神经网络的多尺度目标检测方法,其特征在于,包括以下步骤:1)数据获取训练深度卷积神经网络需要大量的训练数据,因此需要使用大规模的自然图像或视频图像数据,如果得到的图像数据没有标签数据则需要进行人工标注,然后划分为训练数据集以及验证数据集;2)数据处理将图像数据集的图像和标签数据通过预处理转化为训练深度卷积神经网络所需要的格式;3)模型构建根据训练目标以及模型的输入输出形式,构造出一个适用于多尺度目标检测问题的深度卷积神经网络;4)定义损失函数根据训练目标以及模型的架构,定义出所需的损失函数;5)模型训练初始化各层网络的参数,不断迭代输入训练样本,根据损失函数计算得到网络的损失值,再通过反向传播计算出各网络层参数的梯度,通过随机梯度下降法对各层网络的参数进行更新;6)模型验证使用验证数据集对训练得到的模型进行验证,测试其泛化性能。2.根据权利要求1所述的一种基于深度卷积神经网络的多尺度目标检测方法,其特征在于,所述步骤2)包括以下步骤:2.1)将数据集中的图像缩放到长和宽为m×n像素大小,标签数据也根据相应的比例缩放到相应的大小;2.2)在缩放后的图像,随机裁剪包含有标签的地方得到a×b像素大小的矩形图像,a<=m,b<=n;2.3)以0.5的概率随机水平翻转裁剪后的图像;2.4)将随机翻转后的图像从[0,255]转换到[-1,1]的范围内。3.根据权利要求1所述的一种基于深度卷积神经网络的多尺度目标检测方法,其特征在于,所述步骤3)包括以下步骤:3.1)构造特征提取网络模型特征提取网络相当于一个编码器,用于从输入的图像中提取出高层的语义信息并保存到一个低维的编码中,特征提取网络的输入为经过步骤2)处理的图像,小物体在越深层的编码中会丢失部分信息,因此为了减少保全更多的信息,输出低维和较低维的特征编码;为了实现从输入到一系列输出的转换,特征提取网络包含多个级联的下采样层,下采样层由串联的卷积层、批量正则化层、以及非线性激活函数层、池化层组成,其中卷积层步长为1,卷积核大小为3×3,提取出相应的特征图,批量正则化层通过归一化同一个批次的输入样本的均值和标准差,起到稳定和加速模型训练的作用,非线性激活层的加入防止模型退化为简单的线性模型,提高模型的描述能力,池化层的作用是缩小特征图的大小,这样能够增加卷积核的感受野;3.2)构造区域生成网络模型区域生成网络主要负责找到输入图中所有的物体和它们的位置;区域生成网络的输入特征图,然后把这个特征图上的每一个点映射回原图,得到这些点的坐标,再在这些点周围取一些提前设定好的不同大小不同长宽比例的候选框,并计算出每个框是物体的概率分数;其中,区域生成网络的输入为步骤3.1)特征提取网络的输出,输出一系列候选框的坐标和其是物体的概率;为了实现从输入到输出的一系列转换,区域生成网络模型包括3个串联的功能结构,有卷积层、批量正则化层、非线性激活函数层,第一个功能结构是将输入进行3×3大小的特征融合,融合周边的信息,并分别作为第二和第三个功能结构的输入,第二个功能结构实现输出矩形框的坐标信息,第三个功能结构实现输出对应矩形框是物体的分数;3.3)构造有内容感知能力的感兴趣区域池化层有内容感知能力的感兴趣区域池化层的作用是实现从原图的目标区域映射到所述步骤3.1)得到的低维编码区域,再池化到固定大小的功能,而有内容感知能力则表现在以下两方面:3.3.1)信息补全信息补全是为了补全小目标在低维编码时丢失的信息,让小目标的检测更准确;针对从原图的目标区域映射到所述步骤3.1)的低维编码的特征图,若其长和宽其中一个大于z,z的取值根据网络需求而定,另一个小于z,则通过反卷积的方式将其放大到边长为max(长,宽)的正方形,再进行池化操作;若其长和宽都小于z,则长宽通过反卷积的方式放大到原来的2倍,再进行池化操作;若其长和宽都大于z,则直接进行后续的池化操作;3.3.2)划分大小对所述步骤3.2)输出原图的目标区域进...

【专利技术属性】
技术研发人员:徐雪妙肖永杰胡枭玮
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1