一种针对道路场景的行人检测方法技术

技术编号:37073778 阅读:16 留言:0更新日期:2023-03-29 19:50
本发明专利技术公开了一种针对道路场景的行人检测方法,该方法包括:以道路行人这种单一的多尺度目标检测任务下,以跨尺度分支之间的信息交互与补充为目的,在自浅至深的路径上,将Conv3_3、Conv4_3、Conv7、Conv8_2层输入本发明专利技术设计的跳跃式反向特征金字塔结构进行特征融合;将待融合特征层上的信息通过一定的方式进行合并,得到比原特征更具备判断力的特征;引用交叉注意力模块反复考虑目标像素特征所在行与列的注意力,捕获非局部特征语义之间的依赖关系。本发明专利技术既能解决无法集成各检测分支关键信息的问题,又能解决直接进行相加操作的融合方式未考虑到待融合特征对融合后所得高级特征贡献程度的问题。特征贡献程度的问题。特征贡献程度的问题。

【技术实现步骤摘要】
一种针对道路场景的行人检测方法


[0001]本专利技术属于行人检测的
,尤其涉及一种针对道路场景的行人检测方法。

技术介绍

[0002]人工智能技术在不断地完善与发展,逐渐从生产领域扩大到生活领域,成为人类生活的一部分。对交通道路场景中的行人进行检测是计算机视觉中的子任务,该任务用于判断所采集的图像或视频数据中是否有行人存在。若存在行人,则用矩形或其他框确定该目标所在具体位置并对应给出单个目标的判断准确率。该技术可以节约时间成本、减少人力使用资源、产生丰富的经济、社会效益,且可应用范围十分广泛。
[0003]在世界所有研究人员共同不断努力下,行人检测算法从低级到高级、从局域性到普遍性,逐步取得突破。文献(周永福,李文龙,胡冉冉.多尺度特征融合的双通道SSD行人头部检测算法[J].激光与光电子学进展,2021,58(24):383

394.)设计双通道SSD网络并对高、低层特征图进行特征融合,重新调整SSD的先验框的方式增加模型检测精度;文献(汪慧兰,戴舒,刘丹,等.交通场景中改进SSD算法的小尺度行人检测研究[J].计算机工程与应用,2022,58(02):201

207.)提出了基于Resnet50的SSD网络架构并采用特征融合方法,以此提升模型对小尺度行人的检测能力;文献(邝先验,杨江波,张建华.基于改进的DSSD算法的行人检测[J].中国仪器仪表,2021(05):21

27.)结合改进的ResNeXt特征提取模型作为DSSD检测框架的前置网络,又对深层网络进行反卷积操作提取不同尺度的特征,并将其通过采用相同的FPN融合策略与浅层网络进行多尺度的特征融合;文献(董永昌,单玉刚,袁杰.基于改进SSD算法的行人检测方法[J].计算机工程与设计,2020,41(10):2921

2926.DOI:10.16208/j.issn1000

7024.2020.10.037.)以DenseNet作为SSD的基础网络,在其后添加四层卷积层构建新的网络并取新建网络的后四层和DenseNet中最后两个DenseBlock来提取目标框,提升模型检测精度。尽管上述算法在特定环境下检测精度有所提升,但对于特定任务下多尺度目标检测结构的设计缺乏针对性,还不能高效融合不同语义层次特征,对遮挡性目标的定位仍不准确。此外,相关工作不能平衡准确率与检测速度,还有进一步提升空间。设计兼备检测精度与速度的高效行人检测系统,已成为当前智能辅助驾驶领域的研究热点。
[0004]SSD是一种经典的基于回归思想和Anchor机制的多尺度单阶段目标检测算法,通过规范化处理原始输入图像,将其调整至固定大小300
×
300作为模型的输入。以VGG

16作为基础骨干网络,在不断下采样的过程中逐次通过尺寸大小为38
×
38、19
×
19、10
×
10、5
×
5、3
×
3和1
×
1的6个多尺度特征层,提取输入图像的特征,并先验地在预测分支上定义锚框。最后使用非极大值抑制的方式保留检测结果最好的预测框,输出检测结果。
[0005]SSD模型结构可分为两部分:基础网络和附加网络。基础网络用于提取关键特征,由修改后的VGG

16网络组成。原VGG

16网络共有16层,包含5组卷积。
[0006]修改部分为:保留VGG

16网络的前13个卷积层;为提升模型感受野大小,并适应pool5从原来步长为2的2
×
2卷积变成步长为1的3
×
3卷积的变化,对其进行平滑处理,即用
扩张卷积、普通卷积分别替换第一、二个全连接层。同时,去掉网络中所有的Dropout层和第三个全连接层。
[0007]附加网络用以增加模型感受野,获得高级语义特征信息,由4组卷积构成,每组分别有2个卷积层,共8个卷积层。
[0008]最终模型在基础网络中选取Conv4层,在附加网络中选取Conv7层、Conv8_2层、Conv9_2层、Conv10_2层以及Conv11_2层作为检测分支。
[0009]SSD模型采用多尺度预测方法:使用具有大尺度特征层预测小目标;使用小尺度特征层预测大目标,以此解决检测过程中存在的目标尺度变化的问题。但其6个检测分支相互独立,经过聚合运算,同步计算预测框的位置信息与分类置信度。此时,底层特征,如Conv4_3,不具备高级语义信息,对目标分类任务不友好;高层特征,如Conv11_2,随经过卷积运算次数的增加而缺失细节信息,对目标定位任务不友好。这样自浅至深单向传播路径的结构设计使检测分支携带的特征信息不充分,模型的检测能力还有很大的提升空间。此外,在相同尺度的预测特征层内,各目标之间的尺度大小不一,为识别该层特征层上的所有目标,需要掌握上下文信息,便于目标定位。

技术实现思路

[0010]基于以上现有技术的不足,本专利技术提出一种针对道路场景的行人检测方法,既能解决无法集成各检测分支关键信息的问题,又能解决直接进行相加操作的融合方式未考虑到待融合特征对融合后所得高级特征贡献程度的问题。
[0011]为了实现以上专利技术,提出了一种针对道路场景的行人检测方法,包括以下步骤:
[0012]S1、在GUP平台搭建基于Pytorch框架的SSD目标检测模型,包括特征提取骨干网络、特征提取网络和分类检测模块;
[0013]S2、自浅至深的路径上,将对SSD模型部分检测分支输入跳跃式反向特征金字塔结构进行特征融合,充分交互、补充跨尺度分支之间的信息;
[0014]S3、将待融合特征层上的信息通过一定的方式进行合并,得到比原特征更具备判断力的特征;
[0015]S4、引用交叉注意力模块反复考虑目标像素特征所在行与列的注意力,捕获非局部特征语义之间的依赖关系;
[0016]S5、设置相应的训练参数对模型进行训练,在模型达到拟合状态或到达设置的最大训练迭代次数时,停止训练并保存得到的模型及权重文件;
[0017]S6、根据训练好的模型,读取测试数据进行测试,并对测试图片进行可视化对比,保存测试结果。
[0018]优选的,在所述步骤S2中,将SSD模型的部分检测分支Conv3_3、Conv4_3、Conv7、Conv8_2层输入跳跃式反向特征金字塔结构,最终输出三层预测特征层,浅层信息融入深层特征的方式增强模型定位能力,增强高级语义特征相邻子特征之间信息差异性。
[0019]优选的,在所述步骤S3中,将调整至相同分辨率的待融合特征分别通过全局平均池化和全局最大池化模块,计算后分别得到两特征层各个通道内信息分布,经过一维卷积运算,对邻近通道信息进行交互;再将对应的通道信息进行一维拼接,通过Sigmoid函数交互二者每个通道内携带的信息量,在通道层面上形成注意本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对道路场景的行人检测方法,其特征在于,包括以下步骤:S1、在GUP平台搭建基于Pytorch框架的SSD目标检测模型,包括特征提取骨干网络、特征提取网络和分类检测模块;S2、自浅至深的路径上,将对SSD模型部分检测分支输入跳跃式反向特征金字塔结构进行特征融合,充分交互、补充跨尺度分支之间的信息;S3、将待融合特征层上的信息通过一定的方式进行合并,得到比原特征更具备判断力的特征;S4、引用交叉注意力模块反复考虑目标像素特征所在行与列的注意力,捕获非局部特征语义之间的依赖关系;S5、设置相应的训练参数对模型进行训练,在模型达到拟合状态或到达设置的最大训练迭代次数时,停止训练并保存得到的模型及权重文件;S6、根据训练好的模型,读取测试数据进行测试,并对测试图片进行可视化对比,保存测试结果。2.如权利要求1所述的针对道路场景的行人检测方法,其特征在于,在所述步骤S2中,将SSD模型的部分检测分支Conv3_3、Conv4_3、Conv7、Conv8_2层输入跳跃式反向特征金字塔结...

【专利技术属性】
技术研发人员:李建东李佳琦
申请(专利权)人:辽宁工程技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1