一种基于区域卷积神经网络的实时目标检测方法技术

技术编号:15220034 阅读:332 留言:0更新日期:2017-04-26 19:43
本发明专利技术提出了一种基于区域卷积神经网络的实时目标检测方法,主要包括输入图像、目标检测系统、交替优化学习共享、分类器分类检测。将任意大小的图像作为输入,在输入图像的同时将多个感兴趣区域(RoIs)输入,区域建议网络提出了检测区域,R‑CNN探测器利用提出的检测区域,完全连接层共享所有空间位置,采用交替训练优化来学习共享特征,通过分类器分类检测。使用RPNs来生成区域建议,使用共享权值减少了网络参数,使得区域建议这一步基本无花费;其中区域建议网络(RPN)和区域卷积神经网络网络(R‑CNN)共享卷积层之间的两个网络,使得成本大幅减少,检测速度快,效率高。

A real time target detection method based on region convolution neural network

The invention provides a real time target detection method based on a region convolution neural network, which mainly comprises an input image, a target detection system, an alternating optimization learning and sharing, and a classifier classification detection. The image of any size as input in the input image and a plurality of regions of interest (RoIs) input region suggested network presents a detection area, R CNN detector using detection region is proposed, a fully connected layer share space position, using alternate training optimization to learn sharing features, through the classification test. Use RPNs to generate regional recommendations using sharing weights to reduce the network parameters, making the area that this step basically no cost; the area network (RPN) and regional network (R convolutional neural network CNN) shared two network convolution between the layers, make the cost greatly reduced, fast detection speed, high efficiency.

【技术实现步骤摘要】

本专利技术涉及目标检测领域,尤其是涉及了一种基于区域卷积神经网络的实时目标检测方法。
技术介绍
物体检测可快速检测图像中的人类、动物、食物、家居等多种物体,可用于安防、交通等众多领域,近些年在目标检测领域的进展主要是由区域建议方法和基于区域的卷积神经网络贡献的。虽然基于区域的神经网络和传统的方法相比计算昂贵,在空间和时间上的花费多,且物体检测速度慢,是在现阶段检测系统测试计算时间遇到的瓶颈。本专利技术提出了一种基于区域卷积神经网络的实时目标检测方法,主要包括输入图像、目标检测系统、交替优化学习共享、分类器分类检测。将任意大小的图像作为输入,在输入图像的同时将多个感兴趣区域(RoIs)输入,区域建议网络提出了检测区域,R-CNN探测器利用提出的检测区域,完全连接层共享所有空间位置,采用交替训练优化来学习共享特征,通过分类器分类检测。使用RPNs来生成区域建议,使用共享权值减少了网络参数,使得区域建议这一步基本无花费;其中区域建议网络(RPN)和区域卷积神经网络网络(R-CNN)共享卷积层之间的两个网络,使得成本大幅减少,检测速度快,效率高。
技术实现思路
为解决上述问题,本专利技术提供一种基于区域卷积神经网络的实时目标检测方法,主要包括输入图像(一)、目标检测系统(二)、交替优化学习共享(三)、分类器分类检测(四)。其中输入图像(一),将任意大小的图像作为输入,在输入图像的同时将多个感兴趣区域(RoIs)输入,RoIpooling层将图像中的RoI定位到特征图像中,将其输入到固定大小的特征图中。进一步地,RoIPooling层输入图像通过全连接映射到特征向量,用相同的空间尺寸(3×3)的特征映射,将RoI在特征图像中定位,获取输出向量,生成区域建议,增加两个卷积层实现区域建议网络,一个用来将每个特征图的位置编码成一个向量,另一个是对每一个位置输出物体分数。其中目标检测系统(二),主要包括两个模块,区域建议网络(RPN)和区域卷积神经网络网络(R-CNN)探测器。进一步地,区域建议网络(RPN)模块指示R-CNN对哪个区域进行检测,因为我们的最终目标是使用一个快速R-CNN对象检测网络进行计算,区域建议网络和R-CNN共享一个共同的卷积层,将一个任意大小的图像作为输入,输出一组矩形对象的建议,每一个对象都有一个得分,采用完全卷积网络对这个过程进行建模,通过共享的滑动卷积层输出卷积特征映射的小网络在最后卷积得到的特征图上进行滑动扫描,这个滑动的网络每次与特征图上N×N的窗口全连接,每个滑动窗口被映射到低维特征,此特征进入两个完全连接层:box回归层(reg)和box分类层(cls),使用k=3时,输入图像上的有效感受域是大的,小网络运行在滑动窗口时,完全连接层共享所有空间位置。进一步地,小网络在每个滑动窗口的位置,我们同时预测多个区域的建议,其中每个位置最大可能的建议数目表示为k,reg层有4k坐标输出来编码K盒,cls层输出2k分数来估计对象是否是物体,K建议根据于K参考框参数,我们称之为锚;锚对于滑动窗口的问题,与规模和纵横比有关。进一步地,区域建议网络提出了检测区域,R-CNN探测器利用提出的检测区域。其中交替优化学习共享(三),本专利采用交替训练优化来学习共享特征,首先训练RPN,然后使用快速R-CNN调协来初始化RPN,并重复这个过程,具体步骤为:1)按照前面的方法训练RPN,采用ImageNet预训练模型进行初始化,针对区域建议任务进行微调;2)利用第一步产生的建议使用快速R-CNN训练另一个单独的检测网络,这种检测网络也由ImageNet预训练的模型初始化,此时两个网络不共享卷积层;3)我们使用第二步训练好的检测网络初始化RPN,然后进行训练,固定卷积层,微调RPN部分的网络层,此时两个网络共享卷积层;4)将共享卷积层固定,微调快速R-CNN的网络层,两个网络共享相同的卷积层,并形成一个统一的网络,类似的交替训练可以运行更多的迭代。进一步地,RPN训练,分配给每个锚一个二进制类标签,我们将以下两种锚定义为正标签:与标定数据有最高的交叉IoU重叠,或IoU重叠高于0.7;与标定数据交叉IoU重叠小于0.3锚标记为负标签,其余的非正非负的不进行训练;最小化快速R-CNN中的多功能损失的目标函数,图像的损失函数被定义为:这里,i是迷你窗口中锚的索引,pi是预测锚i作为目标的概率,如果锚是正的,标定数据标签是1,如果锚是负的,则为0;ti是预测包围盒的参数坐标,是和正的锚相关的标定数据盒,分类损失Lcls是二分类的log损失(物体和非物体),对于回归损失,我们使用计算,其中R是鲁棒损失函数,意味着只有正锚的回归损失被激活否则禁用cls和cls层的的输出分别包括{pi本文档来自技高网...

【技术保护点】
一种基于区域卷积神经网络的实时目标检测方法,其特征在于,主要包括输入图像(一)、目标检测系统(二)、交替优化学习共享(三)、分类器分类检测(四)。

【技术特征摘要】
1.一种基于区域卷积神经网络的实时目标检测方法,其特征在于,主要包括输入图像(一)、目标检测系统(二)、交替优化学习共享(三)、分类器分类检测(四)。2.基于权利要求书1所述的输入图像(一),其特征在于,将任意大小的图像作为输入,在输入图像的同时将多个感兴趣区域(RoIs)输入,RoIpooling层将图像中的RoI定位到特征图像中,将其输入到固定大小的特征图中。3.基于权利要求书2所述的RoIPooling层,其特征在于,输入图像通过全连接映射到特征向量,用相同的空间尺寸(3×3)的特征映射,将RoI在特征图像中定位,获取输出向量,生成区域建议,增加两个卷积层实现区域建议网络,一个用来将每个特征图的位置编码成一个向量,另一个是对每一个位置输出物体分数。4.基于权利要求书1所述的目标检测系统(二),其特征在于,主要包括两个模块,区域建议网络(RPN)和区域卷积神经网络网络(R-CNN)探测器。5.基于权利要求书3所述的区域建议网络(RPN),其特征在于,RPN模块指示R-CNN对哪个区域进行检测,因为我们的最终目标是使用一个快速R-CNN对象检测网络进行计算,区域建议网络和R-CNN共享一个共同的卷积层,将一个任意大小的图像作为输入,输出一组矩形对象的建议,每一个对象都有一个得分,采用完全卷积网络对这个过程进行建模,通过共享的滑动卷积层输出卷积特征映射的小网络在最后卷积得到的特征图上进行滑动扫描,这个滑动的网络每次与特征图上N×N的窗口全连接,每个滑动窗口被映射到低维特征,此特征进入两个完全连接层:box回归层(reg)和box分类层(cls),使用k=3时,输入图像上的有效感受域是大的,小网络运行在滑动窗口时,完全连接层共享...

【专利技术属性】
技术研发人员:夏春秋
申请(专利权)人:深圳市唯特视科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1