当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于Faster-RCNN的加强学习的目标检测方法技术

技术编号:19481131 阅读:18 留言:0更新日期:2018-11-17 10:39
本发明专利技术公开了一种基于Faster‑RCNN的加强学习的目标检测方法,涉及图像处理领域,该方法包括:采集待测图像,将待测图像导入Faster‑RCNN,Faster‑RCNN中的卷积神经网络的网络结构进行了修改,将最后一个尺度的网络结构中的卷积模块替换为沙漏模块,通过卷积神经网络对待测图像进行特征提取生成特征映射图,将最后一层特征映射图导入RPN,RPN网络筛选出来的候选区域对应的特征映射图向量化后再用分类器对其进行具体的分类,得到检测结果;该方法修改了卷积神经网络的网络结构,使用沙漏模块代替深层网络中的普通的卷积模块,对深度卷积神经网络提取的深层特征携带的语义信息进行了加强学习,分层突出物体的语义信息,在一定程度上减少了漏报和误报。

【技术实现步骤摘要】
一种基于Faster-RCNN的加强学习的目标检测方法
本专利技术涉及图像处理领域,尤其是一种基于Faster-RCNN的加强学习的目标检测方法。
技术介绍
目标检测被广泛地应用于行人检测、智能辅助驾驶、智能监控、火焰烟雾检测以及智能机器人等领域,目标检测技术虽然发展迅速,但是也存在很多问题,光照、遮挡、背景混淆、尺度问题一直是目标检测的难点。深度卷积神经网络在目标检测任务上表现非常出色,这主要归功于大样本和其复杂的形式,深度使得模型拥有了很强的非线性表达能力。通常情况下,深度卷积神经网络搭建好后之后,进行端对端的训练,虽然可以通过卷积神经网络可视化技术来观察网络训练的优劣,但是目前这只是用来判断网络是否收敛的一个依据,卷积神经网络提取的可视化的深层特征中包含丰富的语义信息,但目前并不会对这些可视化的特征做后续处理,若能对语义信息进行再学习和提炼,对于之后的图像处理任务都会有所帮助。
技术实现思路
本专利技术人针对上述问题及技术需求,提出了一种基于Faster-RCNN的加强学习的目标检测方法,该方法修改了卷积神经网络的网络结构,使用沙漏模块代替深层网络中的普通的卷积模块,对深度卷积神经网络提取的深层特征携带的语义信息进行了加强学习,分层突出物体的语义信息,在一定程度上减少了漏报和误报。本专利技术的技术方案如下:一种基于Faster-RCNN的加强学习的目标检测方法,该Faster-RCNN包括卷积神经网络、候选区域网络RPN和分类器,方法包括:采集待测图像,将待测图像导入卷积神经网络,卷积神经网络包括M个网络层,卷积神经网络的最后一个尺度的网络结构中包括沙漏模块、其余尺度的网络结构中分别包括卷积层和采样层,M为正整数且M≥2;按照从M个网络层的最顶层至最底层的顺序通过M个网络层依次对待测图像进行特征提取,生成待测图像的M层特征映射图;将第M层特征映射图导入RPN,通过RPN对第M层特征映射图中的前景区域和后景区域进行前后景初步分类,并确定前景区域的坐标;确定第M层特征映射图中与前景区域的坐标对应的特征映射块,将特征映射块使用金字塔池化的方法向量化,得到用于表征特征映射块的特征向量;将特征向量输入分类器中进行具体分类,确定特征向量对应的类别并输出检测结果。其进一步的技术方案为,沙漏模块依次包括下采样层、转置卷积层以及像素叠加层,下采样层用于对输入沙漏模块的张量进行N种不同尺度的下采样并分别生成N个尺度不同的特征映射图,转置卷积层用于采用不同尺度的转置卷积对N个尺度不同的特征映射图进行转置卷积,并生成与输入的张量尺度相同的N个特征映射图,像素叠加层用于对输入的张量以及与张量尺度相同的N个特征映射图进行逐像素的叠加并输出,N为正整数且N≥2。其进一步的技术方案为,该方法还包括:读入Faster-RCNN在ImageNet数据集上的参数,确定卷积神经网络除最后一个尺度之外的其余各个尺度的网络结构的基础网络参数为读取到的参数,确定卷积神经网络最后一个尺度的网络结构的基础网络参数为沙漏模块对应的参数;选取训练样本集,训练样本集中包括若干个样本图像和每个样本图像中的目标框的监督信息,目标框用于对目标进行标注,监督信息包括样本图像中的目标框的位置信息和属性信息,目标框的位置信息包括目标框的横坐标和纵坐标,目标框的属性信息包括目标框的长度和宽度;保持卷积神经网络除最后一个尺度之外的其余各个尺度的网络结构的参数为读取到的基础网络参数,利用训练样本集对卷积神经网络最后一个尺度的网络结构的基础网络参数进行训练。其进一步的技术方案为,该方法还包括:选取测试样本集,测试样本集中包括若干个样本图像,将测试样本集中的各个样本图像输入Faster-RCNN中,筛选出误判的样本图像组成新的训练样本集,并对各个误判的样本图像进行监督信息的标注;当新的训练样本集中的样本图像的数量达到预设数量时,使用新的训练样本集不断更新Faster-RCNN的参数。其进一步的技术方案为,Faster-RCNN包括至少两个不同的Faster-RCNN,每个Faster-RCNN分别用于检测不同属性的目标,则监督信息中还包括样本属性,样本属性是整体、上半部分以及下半部分中的任意一种。其进一步的技术方案为,通过RPN对第M层特征映射图中的前景区域和后景区域进行前后景初步分类,包括:通过候选区域在第M层特征映射图上滑动扫描,对候选区域进行前后景初步分类,候选区域包括322、642、1282、2562以及5122中的至少一种,候选区域的长宽比例为1:1、1:2以及2:1中的至少一种。其进一步的技术方案为,将待测图像导入卷积神经网络,包括:对待测图像进行图像预处理,将待测图像的尺寸处理为预定尺寸;将预定尺寸的待测图像导入卷积神经网络。本专利技术的有益技术效果是:1、本申请公开了一种基于Faster-RCNN的加强学习的目标检测方法,该方法修改了Faster-RCNN中的卷积神经网络的网络结构,使用沙漏模块代替深层网络中的卷积模块,对深度卷积神经网络提取的深层特征携带的语义信息进行了加强学习,分层突出物体的语义信息,在一定程度上减少了漏报和误报。2、该方法采用在线学习的策略更新网络参数,在不断积累训练集的过程中不断地提高模型的性能,对于模型多次误判的物体进行加强学习,针对性地减少模型对这类目标的误判,提高模型性能。3、该方法增加了RPN网络中的候选区域数量,使其更适合多尺度目标的检测,可以进一步减少漏报,提高检测精度。4、采用各种样本属性的监督信号,多模型协调检测物体,分别对目标的整体和部分进行检测并综合输出检测结果,即使在自然场景中存在遮挡,也能很好的检测出物体,减少了漏报率。附图说明图1是本申请公开的目标检测方法的流程图。图2是本申请中的沙漏模块的结构图。图3是本申请中的候选区域的示意图。具体实施方式下面结合附图对本专利技术的具体实施方式做进一步说明。本申请公开了一种基于Faster-RCNN的加强学习的目标检测方法,其中待检测的目标的尺寸不一,比如目标是行人、车辆、火焰等。本专利技术中的Faster-RCNN(FasterRegion-basedConvolutionalNeuralNetwork,更快的基于区域的卷积神经网络)包括卷积神经网络、RPN(RegionProposalNetworks,候选区域网络)和分类器,卷积神经网络可以是残差网络,卷积神经网络包括M个网络层,M为正整数且M≥2,本专利技术中使用的卷积神经网络的基础模型是ResNet-50,则M=50,使用的分类器是softmax分类器。本专利技术公开的方法在使用Faster-RCNN检测目标之前,需要先训练得到Faster-RCNN,因此本专利技术主要分为两个部分,第一部分为模型训练部分,第二部分为目标检测部分,主要流程图请参考图1。第一部分,模型训练部分,主要包括如下几个步骤:第一步,预先读入Faster-RCNN在ImageNet数据集上的参数,将读取到的参数作为卷积神经网络的基础网络参数的初始,将最后的输出修改为要检测的类别数+1(背景)的输出,将剩余网络结构的参数冻结,进行进一步修改,将最后一个尺度的网络结构中使用沙漏模块代替卷积模块,在本申请使用的ResNet-50中,也就是将ResNet-50中的Res4和本文档来自技高网...

【技术保护点】
1.一种基于Faster‑RCNN的加强学习的目标检测方法,其特征在于,所述Faster‑RCNN包括卷积神经网络、候选区域网络RPN和分类器,所述方法包括:采集待测图像,将所述待测图像导入所述卷积神经网络,所述卷积神经网络包括M个网络层,所述卷积神经网络的最后一个尺度的网络结构中包括沙漏模块、其余尺度的网络结构中分别包括卷积层和采样层,M为正整数且M≥2;按照从所述M个网络层的最顶层至最底层的顺序通过所述M个网络层依次对所述待测图像进行特征提取,生成所述待测图像的M层特征映射图;将第M层特征映射图导入RPN,通过所述RPN对所述第M层特征映射图中的前景区域和后景区域进行前后景初步分类,并确定所述前景区域的坐标;确定所述第M层特征映射图中与所述前景区域的坐标对应的特征映射块,将所述特征映射块使用金字塔池化的方法向量化,得到用于表征所述特征映射块的特征向量;将所述特征向量输入所述分类器中进行具体分类,确定所述特征向量对应的类别并输出检测结果。

【技术特征摘要】
1.一种基于Faster-RCNN的加强学习的目标检测方法,其特征在于,所述Faster-RCNN包括卷积神经网络、候选区域网络RPN和分类器,所述方法包括:采集待测图像,将所述待测图像导入所述卷积神经网络,所述卷积神经网络包括M个网络层,所述卷积神经网络的最后一个尺度的网络结构中包括沙漏模块、其余尺度的网络结构中分别包括卷积层和采样层,M为正整数且M≥2;按照从所述M个网络层的最顶层至最底层的顺序通过所述M个网络层依次对所述待测图像进行特征提取,生成所述待测图像的M层特征映射图;将第M层特征映射图导入RPN,通过所述RPN对所述第M层特征映射图中的前景区域和后景区域进行前后景初步分类,并确定所述前景区域的坐标;确定所述第M层特征映射图中与所述前景区域的坐标对应的特征映射块,将所述特征映射块使用金字塔池化的方法向量化,得到用于表征所述特征映射块的特征向量;将所述特征向量输入所述分类器中进行具体分类,确定所述特征向量对应的类别并输出检测结果。2.根据权利要求1所述的方法,其特征在于,所述沙漏模块依次包括下采样层、转置卷积层以及像素叠加层,所述下采样层用于对输入所述沙漏模块的张量进行N种不同尺度的下采样并分别生成N个尺度不同的特征映射图,所述转置卷积层用于采用不同尺度的转置卷积对所述N个尺度不同的特征映射图进行转置卷积,并生成与输入的张量尺度相同的N个特征映射图,所述像素叠加层用于对输入的张量以及与所述张量尺度相同的N个特征映射图进行逐像素的叠加并输出,N为正整数且N≥2。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:读入Faster-RCNN在ImageNet数据集上的参数,确定所述卷积神经网络除最后一个尺度之外的其余各个尺度的网络结构的基础网络参数为读取到的参数,确定所述卷积神经网络最后一个尺度的网络结构的基础网络参数为所述沙漏模块对应的参数;选取训练样本集,所...

【专利技术属性】
技术研发人员:黄敏蒋胜朱启兵郭亚
申请(专利权)人:江南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1