当前位置: 首页 > 专利查询>天津大学专利>正文

基于多尺度感受野特征融合的深度神经网络目标检测方法技术

技术编号:22238953 阅读:36 留言:0更新日期:2019-10-09 18:45
本发明专利技术涉及一种基于多尺度感受野特征融合的深度神经网络目标检测方法,包括:收集训练样本图片,要求图像包含RGB三通道,并附有物体检测框标注和每个物体的类别标注信息;将收集到的图像数据集中的图像数据和标签数据通过预处理转为训练深度卷积神经网络所要求的格式;设计基于多尺度感受野特征融合的深度卷积神经网络结构;设计应用于目标检测的深度神经网络结构,设计时要根据输入输出数据的结构来确定网络的输入层和输出层,并确定神经网络中多尺度感受野特征融合模块的个数及卷积层的个数,确定网络训练循环迭代的次数和网络最终收敛条件。根据训练的目标和模型的结构,定义所需的损失函数,训练阶段对目标的类别和检测框偏移量进行回归。

Deep Neural Network Target Detection Method Based on Multi-scale Receptive Field Feature Fusion

【技术实现步骤摘要】
基于多尺度感受野特征融合的深度神经网络目标检测方法
本专利技术涉及计算机图像识别的
,特别涉及采用深度神经网络方法的图像目标检测方法。
技术介绍
目标检测是计算机视觉计算领域的重要课题之一。随着社会的发展和技术的进步,目标检测这一技术不断地在各种场景中得到充分的使用,实现各种预期目标,如无人驾驶、安全监测、视频监控和交通管制等领域。针对大量的图像视频数据和变化的场景,高效地定位和分类各种感兴趣目标,实现快速而精确的目标检测,具有重要意义。近年来,深度学习特别是卷积神经网络在计算机视觉领域和自然语言处理领域取得的巨大进步,引发了该领域学者的研究兴趣。随着一系列基于深度学习的骨架网络的提出,例如AlexNet、VGGNet、GoogLeNet、ResNet和DenseNet等,有关目标检测方法的研究在基于这些骨架网络提取特征的基础上取得了很大的进展。目前,基于深度学习的目标检测方法大致分为两类:单阶段的检测方法和两阶段的检测方法。两阶段的方法大致遵循区域建议和区域定位分类两个步骤,包括R-CNN系列方法,取得了较高的检测精度,但计算复杂度相对较高,难以满足实时性的应用需求。单阶段的方法一般采用回归的思想来直接检测边框位置及所属类别,主要包括YOLO、SSD等。单阶段检测器突破了实时性方面的瓶颈,但是检测效果有限,尤其是对小目标检测精度不高和对不同尺度物体的定位不够精确。因此,如何在确保满足系统实时性的前提下尽量提升检测精度是当前该领域的研究热点。参考文献:[1]Krizhevsky,A.,Sutskever,I.,&Hinton,G.E.(2012).Imagenetclassificationwithdeepconvolutionalneuralnetworks.InAdvancesinneuralinformationprocessingsystems(pp.1097-1105).[2]Simonyan,K.,&Zisserman,A.(2014).Verydeepconvolutionalnetworksforlarge-scaleimagerecognition.arXivpreprintarXiv:1409.1556.[3]Szegedy,C.,Liu,W.,Jia,Y.,Sermanet,P.,Reed,S.,Anguelov,D.,...&Rabinovich,A.(2015).Goingdeeperwithconvolutions.InProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition(pp.1-9).[4]He,K.,Zhang,X.,Ren,S.,&Sun,J.(2016).Deepresiduallearningforimagerecognition.InProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition(pp.770-778).[5]Huang,G.,Liu,Z.,VanDerMaaten,L.,&Weinberger,K.Q.(2017).Denselyconnectedconvolutionalnetworks.InProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition(pp.4700-4708).[6]Redmon,J.,Divvala,S.,Girshick,R.,&Farhadi,A.(2016).Youonlylookonce:Unified,real-timeobjectdetection.InProceedingsoftheIEEEconferenceoncomputervisionandpatternrecognition(pp.779-788).[7]Liu,W.,Anguelov,D.,Erhan,D.,Szegedy,C.,Reed,S.,Fu,C.Y.,&Berg,A.C.(2016,October).Ssd:Singleshotmultiboxdetector.InEuropeanconferenceoncomputervision(pp.21-37).Springer,Cham.
技术实现思路
为了解决现有目标检测技术中的上述问题,特别是对不同尺度目标定位能力不足的问题,本专利技术提出一种基于多尺度感受野特征融合的深度神经网络目标检测方法,以取得较高的检测速度和定位精度。一种基于多尺度感受野特征融合的深度神经网络目标检测方法,用于目标检测,包括下列步骤:1)收集训练样本图片,要求图像包含RGB三通道,并附有物体检测框标注和每个物体的类别标注信息;2)将收集到的图像数据集中的图像数据和标签数据通过预处理转为训练深度卷积神经网络所要求的格式;3)图像集划分;将收集到的数据集划分为训练集,验证集和测试集,训练集用于训练深度卷积神经网络,验证集用于选择最优的训练模型,测试集为后续测试模型效果或在实际应用时使用;4)设计基于多尺度感受野特征融合的深度卷积神经网络结构;设计应用于目标检测的深度神经网络结构,设计时要根据输入输出数据的结构来确定网络的输入层和输出层,并确定神经网络中多尺度感受野特征融合模块的个数及卷积层的个数,确定网络训练循环迭代的次数和网络最终收敛条件。步骤如下:a)构建特征提取骨架网络模型:特征提取骨架网络用于从输入的图像中提取不同尺度、不同层次的语义信息,便于网络检测部分对物体的分类和定位,包括三部分:第一部分是骨架网络stem结构,输入为RGB三通道的图像,该结构包含级联的3×3卷积层,每个卷积层后面均有批量正则化层;第二部分是用来提取多尺度特征的网络结构,该结构包含级联的多尺度感受野特征融合模块,每个模块包含多个3×3卷积层,再用一个1×1卷积层融合上述每个3×3卷积层的输出;第三部分是在末端添加的级联的卷积层,用于提取不同尺度的卷积特征图;b)构建目标定位和目标分类网络:首先根据上一步设计的特征提取骨架网络结构来确定最终用于检测的特征平面;目标定位和目标分类网络分别在用于检测的特征平面上添加一个3×3卷积层;分类网络输出类别的分数用以分类任务,目标定位网络精修选框的位置用于回归任务,为完成分类和回归任务,该网络包含卷积层和批量正则化层;5)根据训练的目标和模型的结构,定义所需的损失函数,训练阶段对目标的类别和检测框偏移量进行回归,6)初始化神经网络各层的参数,对网络中卷积层采用均值为0,标准差为0.02的高斯分布进行初始化,对网络中批量正则化层中的参数采用均值为1,标准差为0.02的高斯分布进行初始化;随机输入经过训练集中的图像,经过步骤4)的特征提取网络得到相应的特征,再经过步骤4)的目标定位和目标分类网络输出检测结果,并通过所定义的损失函数计算相应的损失值,再通过随机梯度下降算法使得到的梯度对各层参数进行优化,即可实现一轮网络模型的训练;重复步骤上述步骤,直到网络的目标检测的能力达到预期的效果为止。采用本专利技术所述方法,将基于多尺本文档来自技高网
...

【技术保护点】
1.一种基于多尺度感受野特征融合的深度神经网络目标检测方法,用于目标检测,包括下列步骤:1)收集训练样本图片,要求图像包含RGB三通道,并附有物体检测框标注和每个物体的类别标注信息;2)将收集到的图像数据集中的图像数据和标签数据通过预处理转为训练深度卷积神经网络所要求的格式;3)图像集划分;将收集到的数据集划分为训练集,验证集和测试集,训练集用于训练深度卷积神经网络,验证集用于选择最优的训练模型,测试集为后续测试模型效果或在实际应用时使用;4)设计基于多尺度感受野特征融合的深度卷积神经网络结构;设计应用于目标检测的深度神经网络结构,设计时要根据输入输出数据的结构来确定网络的输入层和输出层,并确定神经网络中多尺度感受野特征融合模块的个数及卷积层的个数,确定网络训练循环迭代的次数和网络最终收敛条件。步骤如下:a)构建特征提取骨架网络模型:特征提取骨架网络用于从输入的图像中提取不同尺度、不同层次的语义信息,便于网络检测部分对物体的分类和定位,包括三部分:第一部分是骨架网络stem结构,输入为RGB三通道的图像,该结构包含级联的3×3卷积层,每个卷积层后面均有批量正则化层;第二部分是用来提取多尺度特征的网络结构,该结构包含级联的多尺度感受野特征融合模块,每个模块包含多个3×3卷积层,再用一个1×1卷积层融合上述每个3×3卷积层的输出;第三部分是在末端添加的级联的卷积层,用于提取不同尺度的卷积特征图;b)构建目标定位和目标分类网络:首先根据上一步设计的特征提取骨架网络结构来确定最终用于检测的特征平面;目标定位和目标分类网络分别在用于检测的特征平面上添加一个3×3卷积层;分类网络输出类别的分数用以分类任务,目标定位网络精修选框的位置用于回归任务,为完成分类和回归任务,该网络包含卷积层和批量正则化层;5)根据训练的目标和模型的结构,定义所需的损失函数,训练阶段对目标的类别和检测框偏移量进行回归,6)初始化神经网络各层的参数,对网络中卷积层采用均值为0,标准差为0.02的高斯分布进行初始化,对网络中批量正则化层中的参数采用均值为1,标准差为0.02的高斯分布进行初始化;随机输入经过训练集中的图像,经过步骤4)的特征提取网络得到相应的特征,再经过步骤4)的目标定位和目标分类网络输出检测结果,并通过所定义的损失函数计算相应的损失值,再通过随机梯度下降算法使得到的梯度对各层参数进行优化,即可实现一轮网络模型的训练;重复步骤上述步骤,直到网络的目标检测的能力达到预期的效果为止。...

【技术特征摘要】
1.一种基于多尺度感受野特征融合的深度神经网络目标检测方法,用于目标检测,包括下列步骤:1)收集训练样本图片,要求图像包含RGB三通道,并附有物体检测框标注和每个物体的类别标注信息;2)将收集到的图像数据集中的图像数据和标签数据通过预处理转为训练深度卷积神经网络所要求的格式;3)图像集划分;将收集到的数据集划分为训练集,验证集和测试集,训练集用于训练深度卷积神经网络,验证集用于选择最优的训练模型,测试集为后续测试模型效果或在实际应用时使用;4)设计基于多尺度感受野特征融合的深度卷积神经网络结构;设计应用于目标检测的深度神经网络结构,设计时要根据输入输出数据的结构来确定网络的输入层和输出层,并确定神经网络中多尺度感受野特征融合模块的个数及卷积层的个数,确定网络训练循环迭代的次数和网络最终收敛条件。步骤如下:a)构建特征提取骨架网络模型:特征提取骨架网络用于从输入的图像中提取不同尺度、不同层次的语义信息,便于网络检测部分对物体的分类和定位,包括三部分:第一部分是骨架网络stem结构,输入为RGB三通道的图像,该结构包含级联的3×3卷积层,每个卷积层后面均有批量正则化层;第二部分是用来提取多尺度特征的网络结构,该结构包含级联的多尺度感受野特征融合模块,每个模块包含多个3×3卷积层,再用一个1×1卷积层融合上述每个3×3卷积层的输出;第三部分是在末端添加的级联的卷积层,用于提取不同尺度的卷积特征图;b)构建目标定位和目标分类网络:首先根据上一步...

【专利技术属性】
技术研发人员:宋雅麟庞彦伟
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1