基于双信息流与视网膜感受野结构的行人检测模型设计方法技术

技术编号:24411200 阅读:26 留言:0更新日期:2020-06-06 09:17
本发明专利技术属于计算机视觉技术领域,公开了一种基于双信息流结构与视网膜感受野结构的快速行人检测网络设计方法。包括Conv1卷积单元构建步骤、TIFB双信息流模块构建步骤、RRFB视网膜感受野单元构建步骤、特征图处理卷积构建步骤和多尺度行人检测构建步骤,是一种变尺度单阶段的快速行人检测算法网络的结构设计,其所含卷积层较少,推理过程只需要对输入图片进行一次前向运算,有效地兼顾了行人检测中的精度和速度问题。

Design method of pedestrian detection model based on double information flow and retinal receptive field structure

【技术实现步骤摘要】
基于双信息流与视网膜感受野结构的行人检测模型设计方法
本专利技术属于计算机视觉
,具体涉及一种基于双信息流结构与视网膜感受野结构的快速行人检测网络设计方法。
技术介绍
行人检测是行人识别或再识别的第一步关键环节,是指对于任意一幅给定的图像,利用行人视觉特征信息对其进行搜索以确定其中是否含有行人,并返回行人的位置、大小和姿态的生物技术。现今的行人检测技术主要分为传统算法和深度学习算法两大类。传统算法主要使用基于几何特征、模板匹配、统计分析等方法,依赖手动提取的Haar、HOG等特征描述子进行行人检测,最大的缺陷是手工特征提取速度慢、表征能力差且不具有良好的泛化能力,难以应对行人尺度差异、光照变化、遮挡等条件带来的影响;随着神经网络的发展,深度学习技术以其特征的高效性与鲁棒性、处理速度的实时性等优势逐渐成为行人检测的主流方法。深度学习是一种自主特征提取的、端到端的学习方法,其学习流程简单,大大减少了时间成本。深度学习算法使得行人检测的精度取得了长足的进步,在世界权威基准数据集上的真正例率(简称TPR)已逐渐趋于饱和。但在精度提高的同时,行人检测算法的推理时间长、检测速度低却依然是其所面临又一重大挑战,更深的神经网络具有更多的参数,一般也会具有更强的表达能力。然而,由于优化神经网络需要借助反向传播算法,随着层数增多,神经网络容易发生梯度消失或者梯度爆炸,这导致深度神经网络难以训练、不容易收敛,从而导致网络性能退化,行人检测精度和速度的兼顾性亟待解决。VJ检测算法和基于DPM的传统行人检测算法使用人工设计的描述子,检测速度可以达到实时,但由于人工设计的描述子数量少,自适应能力差,检测的效果却很一般;Faster-RCNN、CMS-RCNN、HR、SSH等基于卷积神经网络的两阶段或单阶段算法,借助深层卷积网络强大的表征能力,达到了很好的检测效果,但是由于基础卷积网络层数过多,计算量和推理时间迅速增加,检测速度变得缓慢;MTCNN是多阶段行人检测算法中的代表算法,具有较高的TPR,检测速度完全可以达到实时,但是却存在多阶段行人检测算法固有的缺陷——提取大量重复计算的候选框。
技术实现思路
本专利技术提供了一种变尺度单阶段的快速行人检测算法网络的结构设计,其所含卷积层较少,推理过程只需要对输入图片进行一次前向运算,有效地兼顾了行人检测中的精度和速度问题。本专利技术所公开的基于双信息流与视网膜感受野结构的行人检测模型设计方法,其特征在于,包括以下步骤:Conv1卷积单元构建步骤,构建包括用于提取特征的卷积层、用于对数据分布进行归一化的BN层和用于增加特征的非线性表达的激活层的Conv1卷积单元;这三层是深度学习的通用层,优选地,卷积层为7*7卷积层,使用较大的卷积核和滑动步长,以及较小的通道数,便于迅速减少特征图的尺寸以及后续步骤的计算量。TIFB双信息流模块构建步骤,TIFB双信息流模块包括三个依次串联的TIFB基本单元,所述TIFB基本单元包括顺序相连的卷积层、BN层和激活层;待检测的图像经过所述Conv1卷积单元的处理后输入至TIFB双信息流模块,依次经过TIFB基本单元的卷积层、BN层、激活层等操作组成的映射函数F(x)输出,将输出的映射函数F(x)与所述Conv1卷积模块的输入(即x项)进行逐元素、逐通道相加后得到最终的输出特征图y;这一跨层结构的目的是改变网络对原始映射的学习方式,可以防止在深层网络模型中出现梯度消失或梯度爆炸的问题。RRFB视网膜感受野单元构建步骤,RRFB视网膜感受野单元包括依次串联的三个RRFB模块,所述RRFB模块包括四个含有卷积层、BN层和激活层的分支,所述TIFB双信息流模块输出至RRFB视网膜感受野单元,经过所述RRFB模块中的卷积层、BN层和激活层分支处理后输出,四个分支的输出合并即为所述RRFB模块的输出;特征图处理卷积构建步骤,构建4个依次相连且2个为一组的、均包括有依次串联的卷积层、BN层和激活层的卷积模块,所述RRFB视网膜感受野单元的输出依次经过所述4个卷积模块完成特征的线性变换、特征图的通道数加倍与减半;多尺度行人检测构建步骤,将所述RRFB视网膜感受野单元的输出结果,和所述特征图处理卷积的2组输出作为行人检测的特征图,分别经过若干个用于变换行人检测特征图的尺寸和通道数使特征图符合行人的二分类和位置框回归的数据输出格式的卷积单元,并将结果输出至损失函数计算中。优选地,所述TIFB双信息流模块的三个依次串联的TIFB基本单元之间,从上至下以全连接方式连接,即从上至下将当前层的特征图信息与靠后层特征图进行依次连接,TIFB的结构等价于利用全连接的方式将当前层的特征图信息与靠后层特征图进行依次连接,靠前层的特征被多次传递和多次加工使用,使得局部多层的特征信息得以互相融合,增加了特征图的语义丰富度、传递效率和利用率。所述RRFB模块的四个含有卷积层、BN层和激活层的分支,具体的:第一个分支,将所述TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层,然后将结果再依次经过3*3的卷积层、BN层和激活层,最后得到分支一的输出y1;第二个分支,将所述TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层,然后将结果再依次经过3*3的卷积层、BN层和激活层,再将结果依次经过3*3的膨胀卷积层、BN层和激活层,最后得到分支三的输出y2;第三个分支,将所述TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层,其次将结果再依次经过3*3的卷积层、BN层和激活层,再次将结果再依次经过3*3的卷积层、BN层和激活层,再将结果依次经过3*3的膨胀卷积层、BN层和激活层,最后得到分支三的输出y3。第四个分支是将所述TIFB双信息流模块的输出依次经过3*3的最大值池化层、BN层和激活层,然后将结果再依次经过1*1的卷积层、BN层和激活层,最后得到分支四的输出y4。所述四个分支的输出合并即为所述RRFB模块的输出,具体的是将所述的四个分支的输出y1、y2、y3和y4合并,得到RRFB模块的最终输出y=y1+y2+y3+y4,且合并的方式是四个分支的输出进行通道拼接,并非逐元素、逐通道相加。所述四个分支的输出均是与原始图片一样的w*h*c数据格式,表示原图片是宽为w、高为h的通道为c的图片。所述4个卷积模块,从上至下依次具体的:第一个卷积模块和第二个卷积模块为一组,第三个卷积模块和第四个卷积模块为一组;第一个卷积模块目的是在不改变RRFB视网膜感受野单元输出特征图通道数量的同时,用于对特征进行线性变换,包括依次串联的1*1卷积层、BN层和激活层,且1*1卷积层其卷积核通道数为128;第二个卷积模块目的是将特征图的通道数加倍以便进行后续的行人检测步骤,包括依次串联的3*3膨胀卷积层、BN层和激活层,且3*3膨胀卷积层的步长为2,卷积核通道数为128;第三个卷积模块目的是将第二个卷积模块输出特征图的通道数减半,这有利于过滤无效冗本文档来自技高网
...

【技术保护点】
1.基于双信息流与视网膜感受野结构的行人检测模型设计方法,其特征在于,包括以下步骤:/nConv1卷积单元构建步骤,构建包括用于提取特征的卷积层、用于对数据分布进行归一化的BN层和用于增加特征的非线性表达的激活层的Conv1卷积单元;/nTIFB双信息流模块构建步骤,TIFB双信息流模块包括三个依次串联的TIFB基本单元,所述TIFB基本单元包括顺序相连的卷积层、BN层和激活层;待检测的图像经过所述Conv1卷积单元的处理后输入至TIFB双信息流模块,依次经过TIFB基本单元的卷积层、BN层、激活层操作组成的映射函数F(x)输出,将输出的映射函数F(x)与所述Conv1卷积模块的输入(即x项)进行逐元素、逐通道相加后得到最终的输出特征图y;/nRRFB视网膜感受野单元构建步骤,RRFB视网膜感受野单元包括依次串联的三个RRFB模块,所述RRFB模块包括四个含有卷积层、BN层和激活层的分支,所述TIFB双信息流模块输出至RFB视网膜感受野单元,经过所述RRFB模块中的卷积层、BN层和激活层分支处理后输出,四个分支的输出合并即为所述RRFB模块的输出;/n特征图处理卷积构建步骤,构建4个依次相连且2个为一组的、均包括有依次串联的卷积层、BN层和激活层的卷积模块,所述RRFB视网膜感受野单元的输出依次经过所述4个卷积模块完成特征线性变换、特征图的通道数加倍与减半;/n多尺度行人检测构建步骤,将所述RRFB视网膜感受野单元的输出结果,和所述特征图处理卷积的2组输出作为行人检测的特征图,分别经过若干个用于变换行人检测特征图的尺寸和通道数使特征图符合行人的二分类和位置框回归的数据输出格式的卷积单元,并将结果输出至损失函数计算中。/n...

【技术特征摘要】
1.基于双信息流与视网膜感受野结构的行人检测模型设计方法,其特征在于,包括以下步骤:
Conv1卷积单元构建步骤,构建包括用于提取特征的卷积层、用于对数据分布进行归一化的BN层和用于增加特征的非线性表达的激活层的Conv1卷积单元;
TIFB双信息流模块构建步骤,TIFB双信息流模块包括三个依次串联的TIFB基本单元,所述TIFB基本单元包括顺序相连的卷积层、BN层和激活层;待检测的图像经过所述Conv1卷积单元的处理后输入至TIFB双信息流模块,依次经过TIFB基本单元的卷积层、BN层、激活层操作组成的映射函数F(x)输出,将输出的映射函数F(x)与所述Conv1卷积模块的输入(即x项)进行逐元素、逐通道相加后得到最终的输出特征图y;
RRFB视网膜感受野单元构建步骤,RRFB视网膜感受野单元包括依次串联的三个RRFB模块,所述RRFB模块包括四个含有卷积层、BN层和激活层的分支,所述TIFB双信息流模块输出至RFB视网膜感受野单元,经过所述RRFB模块中的卷积层、BN层和激活层分支处理后输出,四个分支的输出合并即为所述RRFB模块的输出;
特征图处理卷积构建步骤,构建4个依次相连且2个为一组的、均包括有依次串联的卷积层、BN层和激活层的卷积模块,所述RRFB视网膜感受野单元的输出依次经过所述4个卷积模块完成特征线性变换、特征图的通道数加倍与减半;
多尺度行人检测构建步骤,将所述RRFB视网膜感受野单元的输出结果,和所述特征图处理卷积的2组输出作为行人检测的特征图,分别经过若干个用于变换行人检测特征图的尺寸和通道数使特征图符合行人的二分类和位置框回归的数据输出格式的卷积单元,并将结果输出至损失函数计算中。


2.如权利要求1所述的基于双信息流与视网膜感受野结构的行人检测模型设计方法,其特征在于:所述TIFB双信息流模块的三个依次串联的TIFB基本单元之间,从上至下以全连接方式连接,即从上至下将当前层的特征图信息与靠后层特征图进行依次连接。


3.如权利要求1所述的基于双信息流与视网膜感受野结构的行人检测模型设计方法,其特征在于,所述RRFB模块的四个含有卷积层、BN层和激活层的分支,具体的:
第一个分支,将所述TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层,然后将结果再依次经过3*3的卷积层、BN层和激活层,最后得到分支一的输出y1;
第二个分支,将所述TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层,然后将结果再依次经过3*3的卷积层、BN层和激活层,再将结果依次经过3*3的膨胀卷积层、BN层和激活层,最后得到分支三的输出y2;
第三个分支,将所述TIFB双信息流模块的输出依次经过1*1的卷积层、BN层和激活层,其次将结果再依次经过3*3的卷积层、BN层和激活层,然后将结果再依次经过3*3的卷积层、BN层和激活...

【专利技术属性】
技术研发人员:候少麒殷光强李耶刘学婷杨晓宇黄方正
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1