The invention discloses a multi-scale target detection method based on depth convolution neural network, which comprises steps: 1) data acquisition; 2) data processing; 3) model construction; 4) loss function definition; 5) model training; 6) model verification. The invention combines the ability of deep convolution neural network to extract high-level semantic information of image, the ability of region generation network to generate candidate regions, the ability of patching and mapping of pooling layer of region of interest with content perception, and the ability of accurate classification of multi-task classification network to achieve multi-scale goals more accurately and efficiently. Testing.
【技术实现步骤摘要】
一种基于深度卷积神经网络的多尺度目标检测方法
本专利技术涉及计算机图像处理的
,尤其是指一种基于深度卷积神经网络的多尺度目标检测方法。
技术介绍
目标检测与识别是计算机视觉计算领域的重要课题之一。随着人类科学技术的发展,目标检测这一重要技术不断地得到充分利用,人们把它运用到各种场景中,实现各种预期目标,如战场警戒、安全检测、交通管制、视频监控等都方面。近些年,随着深度学习的快速发展,深度卷积神经网络在目标检测与识别技术上也有进一步的突破。利用深度卷积神经网络,可以提取到图片的高层语义特征信息,然后再利用这些高层语义信息进行目标的检测。神经网络越深,其所表达的特征信息就更具有代表性,但是其存在的问题是,对小尺度物体则表达的非常粗糙,甚至会使得小尺度物体的部分特征丢失,而且,神经网络对大小尺度非常敏感,不同大小尺度的物体经过神经网络所提取到的特征信息存在很大的差异性,导致小尺度物体检测的准确率低,从而大大降低了目标检测的鲁棒性和有效性。
技术实现思路
本专利技术的目的在于克服现有技术的缺点与不足,提出了一种深度卷积神经网络的多尺度目标检测方法,该方法可以很好的将大小尺度的目标检测出来,突破了之前方法中无法很好检测出大小尺度差异很大的同类目标的限制。为实现上述目的,本专利技术所提供的技术方案为:一种基于深度卷积神经网络的多尺度目标检测方法,包括以下步骤:1)数据获取训练深度卷积神经网络需要大量的训练数据,因此需要使用大规模的自然图像或视频图像数据,如果得到的图像数据没有标签数据则需要进行人工标注,然后划分为训练数据集以及验证数据集;2)数据处理将图像数据集的图 ...
【技术保护点】
1.一种基于深度卷积神经网络的多尺度目标检测方法,其特征在于,包括以下步骤:1)数据获取训练深度卷积神经网络需要大量的训练数据,因此需要使用大规模的自然图像或视频图像数据,如果得到的图像数据没有标签数据则需要进行人工标注,然后划分为训练数据集以及验证数据集;2)数据处理将图像数据集的图像和标签数据通过预处理转化为训练深度卷积神经网络所需要的格式;3)模型构建根据训练目标以及模型的输入输出形式,构造出一个适用于多尺度目标检测问题的深度卷积神经网络;4)定义损失函数根据训练目标以及模型的架构,定义出所需的损失函数;5)模型训练初始化各层网络的参数,不断迭代输入训练样本,根据损失函数计算得到网络的损失值,再通过反向传播计算出各网络层参数的梯度,通过随机梯度下降法对各层网络的参数进行更新;6)模型验证使用验证数据集对训练得到的模型进行验证,测试其泛化性能。
【技术特征摘要】
1.一种基于深度卷积神经网络的多尺度目标检测方法,其特征在于,包括以下步骤:1)数据获取训练深度卷积神经网络需要大量的训练数据,因此需要使用大规模的自然图像或视频图像数据,如果得到的图像数据没有标签数据则需要进行人工标注,然后划分为训练数据集以及验证数据集;2)数据处理将图像数据集的图像和标签数据通过预处理转化为训练深度卷积神经网络所需要的格式;3)模型构建根据训练目标以及模型的输入输出形式,构造出一个适用于多尺度目标检测问题的深度卷积神经网络;4)定义损失函数根据训练目标以及模型的架构,定义出所需的损失函数;5)模型训练初始化各层网络的参数,不断迭代输入训练样本,根据损失函数计算得到网络的损失值,再通过反向传播计算出各网络层参数的梯度,通过随机梯度下降法对各层网络的参数进行更新;6)模型验证使用验证数据集对训练得到的模型进行验证,测试其泛化性能。2.根据权利要求1所述的一种基于深度卷积神经网络的多尺度目标检测方法,其特征在于,所述步骤2)包括以下步骤:2.1)将数据集中的图像缩放到长和宽为m×n像素大小,标签数据也根据相应的比例缩放到相应的大小;2.2)在缩放后的图像,随机裁剪包含有标签的地方得到a×b像素大小的矩形图像,a<=m,b<=n;2.3)以0.5的概率随机水平翻转裁剪后的图像;2.4)将随机翻转后的图像从[0,255]转换到[-1,1]的范围内。3.根据权利要求1所述的一种基于深度卷积神经网络的多尺度目标检测方法,其特征在于,所述步骤3)包括以下步骤:3.1)构造特征提取网络模型特征提取网络相当于一个编码器,用于从输入的图像中提取出高层的语义信息并保存到一个低维的编码中,特征提取网络的输入为经过步骤2)处理的图像,小物体在越深层的编码中会丢失部分信息,因此为了减少保全更多的信息,输出低维和较低维的特征编码;为了实现从输入到一系列输出的转换,特征提取网络包含多个级联的下采样层,下采样层由串联的卷积层、批量正则化层、以及非线性激活函数层、池化层组成,其中卷积层步长为1,卷积核大小为3×3,提取出相应的特征图,批量正则化层通过归一化同一个批次的输入样本的均值和标准差,起到稳定和加速模型训练的作用,非线性激活层的加入防止模型退化为简单的线性模型,提高模型的描述能力,池化层的作用是缩小特征图的大小,这样能够增加卷积核的感受野;3.2)构造区域生成网络模型区域生成网络主要负责找到输入图中所有的物体和它们的位置;区域生成网络的输入特征图,然后把这个特征图上的每一个点映射回原图,得到这些点的坐标,再在这些点周围取一些提前设定好的不同大小不同长宽比例的候选框,并计算出每个框是物体的概率分数;其中,区域生成网络的输入为步骤3.1)特征提取网络的输出,输出一系列候选框的坐标和其是物体的概率;为了实现从输入到输出的一系列转换,区域生成网络模型包括3个串联的功能结构,有卷积层、批量正则化层、非线性激活函数层,第一个功能结构是将输入进行3×3大小的特征融合,融合周边的信息,并分别作为第二和第三个功能结构的输入,第二个功能结构实现输出矩形框的坐标信息,第三个功能结构实现输出对应矩形框是物体的分数;3.3)构造有内容感知能力的感兴趣区域池化层有内容感知能力的感兴趣区域池化层的作用是实现从原图的目标区域映射到所述步骤3.1)得到的低维编码区域,再池化到固定大小的功能,而有内容感知能力则表现在以下两方面:3.3.1)信息补全信息补全是为了补全小目标在低维编码时丢失的信息,让小目标的检测更准确;针对从原图的目标区域映射到所述步骤3.1)的低维编码的特征图,若其长和宽其中一个大于z,z的取值根据网络需求而定,另一个小于z,则通过反卷积的方式将其放大到边长为max(长,宽)的正方形,再进行池化操作;若其长和宽都小于z,则长宽通过反卷积的方式放大到原来的2倍,再进行池化操作;若其长和宽都大于z,则直接进行后续的池化操作;3.3.2)划分大小对所述步骤3.2)输出原图的目标区域进...
【专利技术属性】
技术研发人员:徐雪妙,肖永杰,胡枭玮,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。