当前位置: 首页 > 专利查询>福州大学专利>正文

一种通道与空间融合感知的深度学习目标检测方法技术

技术编号:23344897 阅读:50 留言:0更新日期:2020-02-15 04:23
本发明专利技术涉及一种通道与空间融合感知的深度学习目标检测方法,首先构建通道与空间融合感知模块,并将其嵌入深度神经网络架构中,然后利用改造后的深度神经网络架构对目标图片进行目标检测;其中所述通道与空间融合感知模块的构建具体为:首先对原始输入的特征图进行通道感知,接着进行空间感知的级联。本发明专利技术其既不加深网络深度或宽度,也不引入额外空间向量,同时保证了实时性和精度。

A method of deep learning target detection based on channel and space fusion perception

【技术实现步骤摘要】
一种通道与空间融合感知的深度学习目标检测方法
本专利技术涉及图像识别
,特别是一种通道与空间融合感知的深度学习目标检测方法。
技术介绍
目前,基于深度学习的目标检测框架主要分为两类:两阶段检测器和单阶段检测器;两阶段目标检测因其对图片的两阶段处理得名,也被称为基于区域的方法,它是将检测抽象为两个过程,一是基于图片使用随机性选择提出若干个可能包含物体的区域,即图片的局部裁剪,称为候选区域;二是生成区域的特征向量经过深度卷积神经网络编码后,用于预测候选区域的每一类别,从而得到每个区域内物体的类别。两阶段检测器算法都是基于高运算成本的神经网络,用速度来换取精度的提升,因而单阶段目标检测算法应运而生;单阶段的检测器没有中间的区域检出过程,而是直接从图片中获得预测结果;典型例子如YOLO,SSD等,这些直接回归的算法的网络架构相对更简单,但是比较两阶段的目标检测,如Mask-RCNN,它们的速度在提升8倍的同时,精度也降低了大概12%左右;在过去几年,检测器性能的提升主要依赖于增加网络的深度或宽度:VGG-16与AlexNet相比,通过堆叠卷积层来增加网络深度以此提高模型的表达能力;ResNet通过残留块有效地训练网络,模型深度继续增加(例如从16层到152层),使得能够训练高容量的模型提高性能;GoogleNet使用inception模块在相同featuremap上应用不同比例的卷积内核来增加模型宽度以此提高学习能力。一味地追求更深更宽的网络结构虽然能提升性能,但网络越复杂,计算成本越高,推理速度就越低。如可以与顶尖的两阶段网络性能媲美的DSSD和RetinaNet,其表现的提升来源于限制了效率的极深的ResNet-101网络。除了单纯依赖网络深度,目前出现了很多利用设计提高特征表征能力的功能模块来提高网络性能的方法:FPN将深层特征与浅层特征相结合,通过更深层次的丰富语义信息来加强空间强大的浅层特征;DSSD在SSD基础上,使用了更深的基础网络ResNet-101和反卷积层特征融合的同时,跳跃连接给浅层特征图更好的表征能力,但性能显著提升的同时速度明显降低;这些方法不再深化模型来增强网络的特征表示,而是通过直接在对特征图进行叠加、采样、连接等操作,横向地加强卷积神经网络中深层特征的学习以此提高性能。但这些操作都是对整个特征图而非其内部的重处理,都是通过引入一个额外的空间向量来进行特征的融合,而没有基于特征图内部出发,特地强调特征图内部通道或空间之间的重要程度。
技术实现思路
有鉴于此,本专利技术的目的是提出一种通道与空间融合感知的深度学习目标检测方法,其既不加深网络深度或宽度,也不引入额外空间向量,同时保证了实时性和精度。本专利技术采用以下方案实现:一种通道与空间融合感知的深度学习目标检测方法,具体为:构建通道与空间融合感知模块,并将其嵌入深度神经网络架构中,利用改造后的深度神经网络架构对目标图片进行目标检测;所述通道与空间融合感知模块的构建具体为:首先对原始输入的特征图进行通道感知,接着进行空间感知的级联。进一步地,所述对原始输入的特征图进行通道感知具体包括以下步骤:步骤S11:将输入的特征图FH×W×C基于通道切片,分为C个片区Z={z1,z2,...,zC},其中表示第i个片区;其中,H、W、C分别为特征图的高、宽、通道数;步骤S12:对C个片区进行全局平均池化操作得到向量U1={u1,u2,...,uC},第k个元素uk的计算公式为:式中,zk(i,j)为片区zk上坐标(i,j)对应的像素值;步骤S13:将U1通过一个全连接层操作,再进行ReLu激活,得到其中W1指的是该层全卷积的权重系数,r指的是缩放因子,δ(·)指的是ReLu激活操作,得到的维度为步骤S14:将通过一个全连接层操作,并使用sigmoid函数激活,得到其中W2指的是该层全卷积的权重系数,σ(·)指的是sigmoid激活操作,得到的维度为步骤S15:将U2的值与输入原始特征图F的通道片划分向量Z对应相乘,得到经通道感知获得的特征图F1,其公式如下所示:F1=U2·Z;式中,·表示将Z中的第k个向量zk的所有值都乘上U2的第k个值U2k。进一步地,所述进行空间感知的级联具体包括以下步骤:步骤S21:将通道感知获得的特征图F1基于空间切片,分为H×W个片区,即Z'={z'1,z'2,z'3,...,z'H×M},其中所以向量其中K=H×W;步骤S22:将步骤S21得到的所有向量Z'通过一个权重为W3的卷积层,在对通道进行压缩的同时也获得空间感知权重,计算公式为U3=W3*Z′,其中符号*表示将每一个与线性组合得到一个值,最后得到再经过sigmoid激活函数使其概率映射到[0,1]区间内,其公式如下所示:U3=σ(W3*Z′);式中,W3为卷积层的参数权重,σ(·)为sigmoid激活函数表达式;步骤S23:将U3上的数值与通道感知获得的特征图F1的空间切片向量Z′上的值对应相乘,得到空间感知级联后的特征图F2,计算公式如下:F2=U3⊙Z;式中,⊙表示将Z′中的第k个向量Z′k的所有值都乘上U3的第k个值进一步地,本实施例的方法具体包括以下步骤:步骤S1:从MSCOCO或PASCALVOC官网上获取图像训练数据集和测试数据集及其各自标签文件;步骤S2:将训练数据集的图像缩放到同一尺寸,然后输入深度神经网络;步骤S3:构建深度神经网络架构;步骤S4:构造通道与空间融合感知模块,将通道与空间融合感知模块嵌入到搭建好的深度神经网络架构中;其中,步骤S4如上文所述,包括以下两个步骤:步骤S41:输入通道与空间融合感知模块的是一层大小为FH×W×C的特征图,其中,H、W、C分别为特征图的高、宽、通道数。特征图首先经过通道感知将其基于通道切片,并经过全局平均池化、全连接(简称FC)、激活函数等操作进行通道感知,从而不断学习更新各通道的权重分配,并与初始特征图F相乘,得到大小为F1H×W×C的特征图;步骤S42:将步骤S41得到的F1特征图基于空间切片,并经过卷积、激活函数等操作进行空间感知,从而不断学习更新各空间的权重分配,并与通道感知获得的特征图F1相乘,最后得到大小为F2H×W×C的特征图。步骤S5:对改造后的深度神经网络进行训练,保存该神经网络的各项权重值;步骤S6:将步骤S1中下载好的测试数据集的图像,输入到训练好的嵌入通道与空间融合感知模块的深度神经网络中,输出检测结果。并对其目标检测效果进行评价。进一步地,步骤S5中,训练采用平均准确率mAP作为目标检测的评价指标,计算为:式中,R为召回率,P为准确率;在计算召回率与准确率时,设α为预测的边界框与标注真实的边界框之间的重合率,同时将α≥0.5的预测框视为正例,将α<0.5的预测框视为反例,其中α的计算为:式中,Bo本文档来自技高网
...

【技术保护点】
1.一种通道与空间融合感知的深度学习目标检测方法,其特征在于,包括以下步骤:/n构建通道与空间融合感知模块,并将其嵌入深度神经网络架构中,利用改造后的深度神经网络架构对目标图片进行目标检测;/n所述通道与空间融合感知模块的构建具体为:首先对原始输入的特征图进行通道感知,接着进行空间感知的级联。/n

【技术特征摘要】
1.一种通道与空间融合感知的深度学习目标检测方法,其特征在于,包括以下步骤:
构建通道与空间融合感知模块,并将其嵌入深度神经网络架构中,利用改造后的深度神经网络架构对目标图片进行目标检测;
所述通道与空间融合感知模块的构建具体为:首先对原始输入的特征图进行通道感知,接着进行空间感知的级联。


2.根据权利要求1所述的一种通道与空间融合感知的深度学习目标检测方法,其特征在于,所述对原始输入的特征图进行通道感知具体包括以下步骤:
步骤S11:将输入的特征图FH×W×C基于通道切片,分为C个片区Z={z1,z2,...,zC},其中表示第i个片区;其中,H、W、C分别为特征图的高、宽、通道数;
步骤S12:对C个片区进行全局平均池化操作得到向量U1={u1,u2,...,uC},第k个元素uk的计算公式为:



式中,zk(i,j)为片区zk上坐标(i,j)对应的像素值;
步骤S13:将U1通过一个全连接层操作,再进行ReLu激活,得到其中W1指的是该层全卷积的权重系数,r指的是缩放因子,δ(·)指的是ReLu激活操作,得到的维度为
步骤S14:将通过一个全连接层操作,并使用sigmoid函数激活,得到其中W2指的是该层全卷积的权重系数,σ(·)指的是sigmoid激活操作,得到的维度为
步骤S15:将U2的值与输入原始特征图F的通道片划分向量Z对应相乘,得到经通道感知获得的特征图F1,其公式如下所示:
F1=U2·Z;
式中,·表示将Z中的第k个向量zk的所有值都乘上U2的第k个值U2k。


3.根据权利要求1所述的一种通道与空间融合感知的深度学习目标检测方法,其特征在于,所述进行空间感知的级联具体包括以下步骤:
步骤S21:将通道感知获得的特征图F1基于空间切片,分为H×W个片区,即Z'={z'1,z'2,z'3,...,z'H×M},其中所...

【专利技术属性】
技术研发人员:吴林煌杨绣郡范振嘉陈志峰
申请(专利权)人:福州大学
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1