一种深度学习目标检测方法及系统技术方案

技术编号:24171023 阅读:28 留言:0更新日期:2020-05-16 02:57
本发明专利技术公开了一种深度学习目标检测方法,包括如下步骤:输入图片经过卷积神经网络骨干网络提取图片中目标的特征;通过区域候选网络,首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框;通过所述候选框映射到需要检测目标的特征层上,对感兴趣目标区域进行池化操作,得到目标区域维数大小相同的池化后的特征图;对需要检测目标的特征层上分别使用分类和边框回归操作;经过非极大值抑制后得到最终的目标检测框。本发明专利技术的优点在于:避免当预测框和真实框不重叠时,检测网络的目标函数无法优化;可以使用牛顿法更新网络权重,检测网络训练更快;目标检测结果准确。

An in-depth learning target detection method and system

【技术实现步骤摘要】
一种深度学习目标检测方法及系统
本专利技术属于基于深度学习的计算机视觉领域,具体涉及一种深度学习目标检测方法及系统。
技术介绍
随着深度卷积神经网络的兴起,它已经变得更好的工具来处理目标检测任务。例如在手机拍照过程中,在预拍摄模式下会显示预测框(通常是框住人脸的矩形或正方形),检测网络通常有效地学习标记一个像素为背景或前景。损失函数是一种量化预测值和真实值的误差的度量。通常情况下,交叉熵损失作为像素标记任务中一种可以选择的损失函数。这种损失函数用于分割或分类任务中,满足条件为只要所有类别的标记是均衡的。类别不平衡使得网络预测结果偏向于类别数目多的一类,因为网络收敛到非最优局部最小。通常损失函数的计算是通过计算预测框和真实框的交集和并集的比值来得到的,比如IoU,然后再计算损失值。然而,现有技术中,当预测框和真实框不重叠时,检测网络的目标函数无法优化。
技术实现思路
本专利技术的目的是通过以下技术方案实现的。根据本专利技术的专利技术目的,提供了一种深度学习目标检测方法,包括如下步骤:输入图片经过卷积神经网络骨干网络提取图片中目标的特征;通过区域候选网络,首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框;通过所述候选框映射到需要检测目标的特征层上,对感兴趣目标区域进行池化操作,得到目标区域维数大小相同的池化后的特征图;对需要检测目标的特征层上分别使用分类和边框回归操作;经过非极大值抑制后得到最终的目标检测框。进一步地,所述边框回归操作使用边框优化损失函数。进一步地,所述分类操作使用SoftMax损失函数。进一步地,所述边框优化损失函数的计算步骤如下:1)计算预测框和真实框的交并比;2)计算预测框和真实框的广义交并比;3)计算GIoU损失;4)计算Log-Cosh损失。进一步地,所述预测框和真实框的交并比计算过程如下:其中,P为预测框,G为真实框。进一步地,所述预测框和真实框的广义交并比的计算过程如下:其中,C是包含P和G的最小闭包区域或最小外接矩形。进一步地,所述计算GIoU损失的计算过程如下:LGIoU=1-GIoU。进一步地,所述计算Log-Cosh损失的计算过程如下:LLog-Cosh=log(cosh(LGIoU))。根据本专利技术的另一个方面,还提供了一种深度学习目标检测系统,包括:特征提取模块,用于输入图片经过卷积神经网络骨干网络提取图片中目标的特征;候选框获取模块,用于通过区域候选网络,首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框;区域池化模块,用于通过所述候选框映射到需要检测目标的特征层上,对感兴趣目标区域进行池化操作,得到目标区域维数大小相同的池化后的特征图;检测模块,用于对需要检测目标的特征层上分别使用分类和边框回归操作;非极大值抑制模块,用于经过非极大值抑制后得到最终的目标检测框。本专利技术的优点在于:避免当预测框和真实框不重叠时,检测网络的目标函数无法优化;可以使用牛顿法更新网络权重,检测网络训练更快;目标检测结果准确。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:附图1示出了根据本专利技术实施方式的一种深度学习目标检测方法流程图。附图2示出了根据本专利技术实施方式的一种深度学习目标检测系统结构图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。目前,目标检测主流的边界框优化采用的是边界框回归损失,例如使用平方差(MSE)损失或平滑L1(smooth-L1)损失等,这些损失计算方式使用了边界框的距离度量,而忽略了边界框本身最显著的性质:交并比(IoU),也就是预测框和真实框的交集和并集的比值,这个IoU值可以作为目标检测算法性能mAP计算的一个重要的性能指标。虽然IoU具有尺度不变性,但是由于当预测框和真实框没有重合时,IoU值为0,此时优化损失函数时,反向传播的梯度为0,无法优化目标函数,因此不适合作为目标检测任务的损失函数。GIoU可以弥补IoU的上述缺陷,当预测框和真实框不重合时,依然可以计算GIoU值,因此可以作为损失函数,替代边界框回归损失。Log-Cosh也是一种用于回归问题的,且比L2损失更平滑的损失函数,计算方式为预测框和真实框的预测误差的双曲余弦的对数。Log-Cosh损失函数的优点是不易受到异常点的影响,具有Huber损失的所有优点,且二阶处处可微,因此牛顿法可以使用来计算二阶导数,训练时收敛速度更快。如图1所示,本专利技术提供了一种深度学习目标检测方法,包括如下步骤:S1、输入图片经过卷积神经网络(CNN)骨干网络提取图片中目标的特征;卷积神经网络(ConvolutionalNeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(FeedforwardNeuralNetworks),是深度学习(deeplearning)的代表算法之一。卷积神经网络具有表征学习(representationlearning)能力,能够按其阶层结构对输入信息进行平移不变分类(shift-invariantclassification),因此也被称为“平移不变人工神经网络(Shift-InvariantArtificialNeuralNetworks,SIANN)”。本专利技术中,通过将输入图片输入卷积神经网络骨干网络,能够提取图片中目标的特征。S2、通过区域候选网络(RPN),首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框,其中边框回归操作使用了边框优化损失函数,分类操作使用了SoftMax损失函数;区域候选网络(RPN),RegionProposalNetwork,中文意思是“区域选取”,也就是“提取候选框”的意思,所以RPN就是用来提取候选框的网络。Softmax是将神经网络得到的多个值,进行归一化处理,使得到的值在0和1之间,让结果变得可解释。即可以将结果看作是概率,某个类别概率越大,将样本归为该类别的可能性也就越高。softmax用于多分类过程中,它将多个神经元的输出,映射到(0,1)区间内,可以看成概率来理解,从而进行多分类。本专利技术中,经过分类、边框回归操作得到可能含有目标的候选框。S3、通过第2步候选框本文档来自技高网...

【技术保护点】
1.一种深度学习目标检测方法,其特征在于,包括如下步骤:/n输入图片经过卷积神经网络骨干网络提取图片中目标的特征;/n通过区域候选网络,首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框;/n通过所述候选框映射到需要检测目标的特征层上,对感兴趣目标区域进行池化操作,得到目标区域维数大小相同的池化后的特征图;/n对需要检测目标的特征层上分别使用分类和边框回归操作;/n经过非极大值抑制后得到最终的目标检测框。/n

【技术特征摘要】
1.一种深度学习目标检测方法,其特征在于,包括如下步骤:
输入图片经过卷积神经网络骨干网络提取图片中目标的特征;
通过区域候选网络,首先产生许多不同尺度和长宽比的滑窗,然后经过分类、边框回归操作得到可能含有目标的候选框;
通过所述候选框映射到需要检测目标的特征层上,对感兴趣目标区域进行池化操作,得到目标区域维数大小相同的池化后的特征图;
对需要检测目标的特征层上分别使用分类和边框回归操作;
经过非极大值抑制后得到最终的目标检测框。


2.根据权利要求1所述的一种深度学习目标检测方法,其特征在于,
所述边框回归操作使用边框优化损失函数。


3.根据权利要求1所述的一种深度学习目标检测方法,其特征在于,
所述分类操作使用SoftMax损失函数。


4.根据权利要求2所述的一种深度学习目标检测方法,其特征在于,
所述边框优化损失函数的计算步骤如下:
1)计算预测框和真实框的交并比;
2)计算预测框和真实框的广义交并比;
3)计算GIoU损失;
4)计算Log-Cosh损失。


5.根据权利要求4所述的一种深度学习目标检测方法,其特征在于,
所述预测框和真实框的交并比计算过程如下:


【专利技术属性】
技术研发人员:贾琳赵磊
申请(专利权)人:重庆特斯联智慧科技股份有限公司
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1