当前位置: 首页 > 专利查询>复旦大学专利>正文

基于分组扩张卷积神经网络模型的目标检测方法及装置制造方法及图纸

技术编号:20623552 阅读:52 留言:0更新日期:2019-03-20 14:52
本发明专利技术提出了一种利用特征融合来提高检测精度的新型的卷积神经网络模型,即分组扩张卷积神经网络模型,进一步提出了基于该分组扩张卷积神经网络模型的检测方法和装置。该检测方法包括如下步骤:步骤S1,对待测图像进行预处理获得预处理图像;步骤S2,搭建分组扩张卷积神经网络模型;步骤S3,进行模型训练;步骤S4,将预处理图像输入从而得出预处理图像中的目标物体的位置及类别,其中,分组扩张卷积神经网络模型具有多个残差结构以及至少一个第一特征融合层,第一特征融合层由多个残差结构中的一部分分别经上下采样后连接得到,并被归一化到相同的特征空间。

Target Detection Method and Device Based on Grouped Expansion Convolution Neural Network Model

The invention proposes a novel convolution neural network model, i. e. grouped expanded convolution neural network model, which uses feature fusion to improve detection accuracy, and further proposes a detection method and device based on the grouped expanded convolution neural network model. The detection method includes the following steps: firstly, preprocessing the measured image to obtain the preprocessed image; secondly, building the grouped extended convolution neural network model; thirdly, training the model; secondly, inputting the preprocessed image to get the position and category of the target object in the preprocessed image. Among them, the grouped expanded convolution neural network model has more than one. The residual structure and at least one first feature fusion layer are connected by a part of a plurality of residual structures through up and down sampling respectively and normalized into the same feature space.

【技术实现步骤摘要】
基于分组扩张卷积神经网络模型的目标检测方法及装置
本专利技术属于计算机视觉、人工智能
,涉及一种复杂场景下的目标检测方法及装置,具体涉及一种基于分组扩张卷积神经网络模型的目标检测方法及装置。
技术介绍
在当前机器学习技术及计算机硬件性能高速提升的情况下,近年来计算机视觉、自然语言处理和语音检测等应用领域取得了突破性进展。目标检测作为计算机视觉领域一项基础的任务,其精度也得到了大幅提升。目标检测任务可分为两个关键的子任务:目标分类和目标定位。其中,目标分类任务负责判断输入图像中是否有感兴趣类别的物体出现,其输出一系列带分数的标签,用来表明感兴趣类别的物体出现在输入图像中的可能性;目标定位任务负责确定输入图像中感兴趣类别的物体的位置和范围,输出物体的包围盒,或物体中心,或物体的闭合边界等,通常方形包围盒是最常用的选择。目标检测对计算机视觉领域和实际应用具有重要意义,在过去几十年里激励大批研究人员密切关注并投入研究。随着强劲的机器学习理论和特征分析技术的发展,近十几年目标检测课题相关的研究活动有增无减,每年都有最新的研究成果和实际应用发表和公布。不仅如此,目标检测也被应用到很多实际任务,例如智能视频监控、基于内容的图像检索、机器人导航和增强现实等。然而,现有技术的多种目标检测方法的检测准确率仍然较低而不能应用于实际通用的检测任务。因此,目标检测还远未被完美解决,仍旧是重要的挑战性的研究课题。为了提高目标检测的准确率,目前常用的方法是增加检测模型训练时的训练数据。然而,一方面,收集大量的训练数据是一件极其困难的工作,另一方面,训练数据量增多也导致模型训练时间延长,甚至有可能然后训练无法实际完成。
技术实现思路
为解决上述问题,提供一种结构简单、训练消耗少的目标检测方法及装置,本专利技术提出了一种利用特征融合来提高检测精度的新型的卷积神经网络模型,即分组扩张卷积神经网络模型。进一步,本专利技术提出了基于该分组扩张卷积神经网络模型的检测方法和装置,技术方案如下:本专利技术提供了一种基于分组扩张卷积神经网络模型的目标检测方法,其特征在于,采用基于分组扩张卷积神经网络模型从待测图像中检测出目标物体的位置及类别,包括如下步骤:步骤S1,对待测图像进行预处理获得预处理图像;步骤S2,搭建分组扩张卷积神经网络模型;步骤S3,把包含多张训练图像的训练集输入搭建好的分组扩张卷积神经网络模型从而进行模型训练;步骤S4,将预处理图像输入训练完成的分组扩张卷积神经网络模型,从而让训练完成的分组扩张卷积神经网络模型得出预处理图像中的目标物体的位置及类别,其中,分组扩张卷积神经网络模型具有多个残差结构以及至少一个第一特征融合层,第一特征融合层由多个残差结构中的一部分分别经上下采样后连接得到,并被归一化到相同的特征空间。本专利技术提供的基于分组扩张卷积神经网络模型的目标检测方法,还可以具有这样的技术特征,其中,分组扩张卷积神经网络模型还包括至少一个第二特征融合层,该第二特征融合层由多个残差结构中的另一部分以及第一特征融合层分别经上下采样后连接得到,并被归一化到相同的特征空间。本专利技术提供的基于分组扩张卷积神经网络模型的目标检测方法,还可以具有这样的技术特征,其中,待测图像为待测视频,步骤S1的预处理包括从待测视频中抽取多个图像帧。本专利技术提供的基于分组扩张卷积神经网络模型的目标检测方法,还可以具有这样的技术特征,其中,图像帧的抽取方式为按视频序列每三帧抽取一帧。本专利技术提供的基于分组扩张卷积神经网络模型的目标检测方法,还可以具有这样的技术特征,其中,步骤S1的预处理还包括将抽取得到的图像帧进行大小归一化。本专利技术提供的基于分组扩张卷积神经网络模型的目标检测方法,还可以具有这样的技术特征,其中,步骤S3包括如下步骤:步骤S3-2,构建分组扩张卷积神经网络模型,其包含的模型参数为随机设置;步骤S3-3,将训练集中的各个训练图像依次输入构建好的分组扩张卷积神经网络模型并进行一次迭代;步骤S3-4,迭代后,采用最后一层的模型参数分别计算出损失误差,然后将计算得到的损失误差反向传播,从而更新模型参数;步骤S3-5,重复步骤S3-3至步骤S3-4直至达到训练完成条件,得到训练后的分组扩张卷积神经网络模型。本专利技术还提供了一种基于分组扩张卷积神经网络模型的目标检测装置,其特征在于,采用基于分组扩张卷积神经网络模型从待测图像中检测出目标物体的位置及类别,包括:预处理部,对待测图像进行预处理获得预处理图像;目标检测部,从待测图像中检测出目标物体的位置及类别,该目标检测部包含一个训练好的分组扩张卷积神经网络模型,其中,分组扩张卷积神经网络模型具有多个残差结构以及至少一个第一特征融合层,第一特征融合层由多个残差结构中的一部分分别经上下采样后连接得到,并被归一化到相同的特征空间。专利技术作用与效果根据本专利技术实施例提供的基于分组扩张卷积神经网络模型的目标检测方法及装置,由于采用具有第一特征融合层的分组扩张卷积神经网络模型作为检测模型,该检测模型的第一特征融合层能够融合神经网络中的不同特征层,因此,此模型能够学习到更多的特征,更好地进行特征表达,更加适合小目标及遮挡目标检测任务,能够最终提高目标检测的精度。另外,该模型结构简单,不需要使用模型混合、多任务训练以及度量学习等方法,因此,与现有的高精度模型相比,本实施例的模型构建快速方便,且训练过程所消耗的计算量也较小。附图说明图1是本专利技术实施例中基于分组扩张卷积神经网络模型的目标检测方法的流程图;图2是本专利技术实施例的分组扩张卷积神经网络模型的结构示意图;图3是本专利技术实施例的残差网络层结构图。具体实施方式本实施例采用的数据集为UA-DETRAC。UA-DETRAC是一个具有挑战性的真实世界多对象检测和多对象跟踪基准,该数据集包括在中国北京和天津的24个不同地点使用CannonEOS550D摄像机拍摄的10小时的视频。录像以每秒25帧(fps)录制,分辨率为960×540像素。UA-DETRAC数据集中有超过14万个图像帧,手动标注了8250个车辆,总计有121万个标记的物体边界框。另外,本实施例实现的硬件平台需要一张NVIDIATITANX显卡(GPU加速)。本实施例首先对数据集图片进行预处理,然后训练分组扩张卷积神经网络模型,最后通过分组扩张卷积神经网络模型得到目标物体的位置和类别。具体包括4个过程:预处理、搭建模型、训练模型及目标检测。以下结合附图以及实施例来说明本专利技术的具体实施方式。<实施例>图1是本专利技术实施例中基于分组扩张卷积神经网络模型的目标检测方法的流程图。如图1所示,本专利技术的基于分组扩张卷积神经网络模型的目标检测方法包括如下步骤。步骤S1,对待测图像进行预处理获得预处理图像。本实施例中,待测图像为包含了检测目标的视频(例如,道路监控视频等)。预处理过程如下:首先,将待测视频序列(即视频的各个图像帧的时间顺序)每三帧抽取一帧得到多个图像帧,因为帧间差距不大,这样处理可以增加数据集迭代的epoch;然后,将抽取得到的各个图像帧进行水平翻转从而实现数据扩充;最后,将抽取得到以及翻转得到的各个图像帧大小归一化至960x540(即960像素乘540像素),得到预处理图像。本实施例的上述过程中,抽取图像帧是针对待测图像为视频本文档来自技高网
...

【技术保护点】
1.一种基于分组扩张卷积神经网络模型的目标检测方法,其特征在于,采用基于分组扩张卷积神经网络模型从待测图像中检测出目标物体的位置及类别,包括如下步骤:步骤S1,对所述待测图像进行预处理获得预处理图像;步骤S2,搭建分组扩张卷积神经网络模型;步骤S3,把包含多张训练图像的训练集输入搭建好的所述分组扩张卷积神经网络模型从而进行模型训练;步骤S4,将所述预处理图像输入训练完成的所述分组扩张卷积神经网络模型,从而得出各个预处理图像中的目标物体的类别结果以及位置结果并进行输出,其中,所述分组扩张卷积神经网络模型具有多个残差结构以及至少一个第一特征融合层,所述第一特征融合层由所述多个残差结构中的一部分分别经上下采样后连接得到,并被归一化到相同的特征空间。

【技术特征摘要】
1.一种基于分组扩张卷积神经网络模型的目标检测方法,其特征在于,采用基于分组扩张卷积神经网络模型从待测图像中检测出目标物体的位置及类别,包括如下步骤:步骤S1,对所述待测图像进行预处理获得预处理图像;步骤S2,搭建分组扩张卷积神经网络模型;步骤S3,把包含多张训练图像的训练集输入搭建好的所述分组扩张卷积神经网络模型从而进行模型训练;步骤S4,将所述预处理图像输入训练完成的所述分组扩张卷积神经网络模型,从而得出各个预处理图像中的目标物体的类别结果以及位置结果并进行输出,其中,所述分组扩张卷积神经网络模型具有多个残差结构以及至少一个第一特征融合层,所述第一特征融合层由所述多个残差结构中的一部分分别经上下采样后连接得到,并被归一化到相同的特征空间。2.根据权利要求1所述的基于分组扩张卷积神经网络模型的目标检测方法,其特征在于:其中,所述分组扩张卷积神经网络模型还包括至少一个第二特征融合层,该第二特征融合层由所述多个残差结构中的另一部分以及所述第一特征融合层分别经上下采样后连接得到,并被归一化到相同的特征空间。3.根据权利要求1所述的基于分组扩张卷积神经网络模型的目标检测方法,其特征在于:其中,所述待测图像为待测视频,步骤S1的所述预处理包括从所述待测视频中抽取多个图像帧。4.根据权利要求3所述的基于分组扩张卷积神经网络模型的目标检测方法,其特征在于:其中,所述图像帧的...

【专利技术属性】
技术研发人员:程雅慧冯瑞
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1