基于CSA注意力机制和C3_SAC的YOLOv5网络的交通多目标检测方法技术

技术编号:39187520 阅读:6 留言:0更新日期:2023-10-27 08:34
本发明专利技术提供一种基于CSA(CoordinateSpatialAttention)注意力机制和C3_SAC的YOLOv5网络的交通多目标检测方法,首先使用可切换空洞卷积(SAC)替换C3中Bottleneck残差模块中的卷积结构组成新的backbone网络结构,使backbone提取特征信息更准确,同时扩大卷积感受野,适应不同尺度特征;然后在CA注意力机制的基础上结合SA注意力机制,并把改进的CSA注意力机制分别加入到backbone网络的5,8,13层之后,增强网络对学习特征的表达能力;最后把YOLOv5中原有的Ciou损失函数替换为额外考虑角度损失的Siou损失函数。在Kitti交通开源数据集上进行实验,改进YOLOv5模型相较于原始的YOLOv5模型的Precision提升了5.7%,mAP_0.5提升了1.9%,mAP_0.5:0.95提升了3.5%。结果表明,本发明专利技术提出改进的模型有效的实现了高精度的交通多目标检测。标检测。标检测。

【技术实现步骤摘要】
基于CSA注意力机制和C3_SAC的YOLOv5网络的交通多目标检测方法


[0001]本专利技术涉及计算机图像检测领域,尤其涉及基于CSA注意力机制和C3_SAC的YOLOv5网络的交通多目标检测方法。

技术介绍

[0002]随着社会经济和科技的飞速发展,城市化进程的加速和交通流量的不断增加,道路上的车辆、行人、自行车等目标数量急剧增加,这就会造成各种交通事故的频繁发生,验证危及着人们的生命和财产安全。交通目标检测的难度也随之增加。基于深度学习的目标检测算法逐渐成为交通多目标检测领域的主流算法,这些算法采用卷积神经网络(CNN)等深度学习模型,能够实现更高的检测精度和更快的检测速度。
[0003]目前,常见的目标检测模型可以分为两类:一类是以FasterR

CNN为代表的双阶段检测模型,这种模型是先进行卷积操作,先选出来目标所在的大概位置确定感兴趣区域,然后再经过特征提取来实现对目标的准确判断,所以该模型的检测准确率高,但是检测速度慢;另一类是以YOLO、SSD等模型为代表的一阶段模型,一阶段模型通过卷积网络可以直接得到检测结果,速度快,但是准确率确不及双阶段模型,而且特征提取能力弱。而交通领域的目标检测准确性和实时性非常重要。
[0004]针对上述情况,本专利技术提出了基于CSA注意力机制和C3_SAC的YOLOv5网络的交通多目标检测方法,在原始的YOLOv5的基础上进行改进,并且验证本专利技术提出的改进具有提高检测精度和增强网络特征提取的能力。

技术实现思路

[0005]针对现有技术不足,本专利技术提供基于CSA注意力机制和C3_SAC的YOLOv5网络的交通多目标检测方法,包括以下步骤:
[0006]步骤1:获取交通多目标种类的数据集,把获取的交通多目表数据集进行处理成640
×
640大小的图片,转化成能够适合YOLO训练的文件格式,并将其分为训练集,验证集,测试集。
[0007]步骤2:将可切换的空洞卷积(SAC)融合到C3模块中,替换C3中Bottleneck残差模块中的卷积结构,构成C3_SAC模块来组成YOLOv5的backbone网络。
[0008]步骤3:把坐标注意力机制(CA)与空间注意力机制(SA)进行结合,改进成一个新的CSA注意力机制模块,来增强网络对目标的关注度,把CSA注意力机制模块,加入到YOLOv5的backbone结构中,分别加入到第5,8,13层的位置。
[0009]步骤4:将YOLOv5中的Ciou损失函数进行替换,替换成具有角度损失、距离损失和形状损失的Siou损失。
[0010]步骤5:将步骤1处理完成的交通数据集输入到改进的YOLOv5网络中,设置合适的训练次数,当模型的损失,mAP等指标趋近稳定并且收敛。
[0011]步骤6:将步骤5训练完成模型的权重文件应用到YOLOv5模型中,在步骤1中选取验证集进行验证。
[0012]步骤7:使用步骤1处理的同一个交通多目标数据集,在改进的YOLOv5的基础上进行实验,验证改进效果。
[0013]进一步地,步骤1中的Kitti开源数据集具体分类方法为:该数据集包含汽车,交通灯,行人,自行车等9个种类的交通元素,共有7480张图片,通过python脚本对Kitti数据集的标签文本进行提取,并把图片和标签文本按照8:1:1的比例分割为训练集、测试集、验证集。
[0014]进一步地,步骤2中构成C3_SAC模块来组成YOLOv5的backbone网络具体为:可切换空洞卷积(SAC),它对相同的输入特征与不同的Atrous率进行卷积,并使用开关函数收集结果。与标准的3
×
3卷积不同的是可切换的空洞卷积可以通过不同的膨胀率来创建并行的卷积层,以达到动态调整感受野的效果。用可切换空洞卷积来代替YOLOv5网络的C3残差结构中的标准的3
×
3卷积,创建出一个新的残差模块命名为C3_SAC模块,用C3_SAC模块来组成YOLOv5的backbone结构来提取输入图片的特征图。
[0015]表达式为:
[0016]y=Conv(x,w,r)
[0017]其中w来表示权值,r表示空洞率,x表示输入,y表示输出。
[0018]之后,可以将一个卷积层转换为SAC,其结构如下:
[0019][0020]其中r为SAC的超参数,Δw为可训练权值,S(
·
)为可切换函数,由一个5
×
5核的平均池化层和一个1
×
1卷积层实现。
[0021]进一步地,步骤3中新的CSA注意力机制模块具体为:CA注意力机制用平均池化操作把输入转换成(H,1),(1,W)分别沿垂直和水平坐标对每个通道进行编码,接着把垂直和水平方向的位置信息进行Concat结合,进行卷积,标准化,非线性变化之后沿着垂直和水平方向分为(H,1),(1,W),然后用两个1
×
1卷积和Sigmoid激活函数得到图像在垂直和水平方向上的权重,最后把垂直和水平方向的权重与输入图像进行相乘,得到最终输出结果,
[0022]输入X进行水平坐标和垂直坐标对每个通道进行编码,输出表达式为:
[0023][0024][0025]其中,z
c
代表平均池化输出,H,W代表图像的高和宽,x
c
代表图像中的位置。
[0026]经过(1.3)和(1.4)生成的聚合特征映射,首先将他们连接起来,然后经过1
×
1卷积和变换函数F1,公式如下:
[0027]f=δ(F1([z
h
,z
w
]))
[0028]其中[
·
,
·
]表示沿空间维度拼接操作,δ为非线性激活函数,f∈R
C/r
×
(H+W)
为水平方向和垂直方向对空间信息进行编码的中间特征映射,r是控制模块大小的缩减比。
[0029]然后,沿着空间方向将f拆分为两个单独的张量f
h
∈R
C/r
×
H
和f
w
∈R
C/r
×
W
,利用另外
两个1
×
1卷积,F
h
和F
w
变换分别将f
h
和f
w
变换为与输入X具有相同通道数的张量,公式如下:
[0030]g
h
=σ(F
h
(f
h
))
[0031]g
w
=σ(F
w
(f
w
))
[0032]其中σ表示的是Sigmoid激活函数,g
h
和g
w
表示的是与输入X具有相同通道的张量。
[0033]最后,CA输出公式如本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于CSA注意力机制和C3_SAC的YOLOv5网络的交通多目标检测方法,其特征在于,其步骤如下:步骤1:获取交通多目标种类的数据集,把获取的交通多目表数据集进行处理成640
×
640大小的图片,转化成能够适合YOLO训练的文件格式,并将其分为训练集,验证集,测试集。步骤2:将可切换的空洞卷积(SAC)融合到C3模块中,替换C3中Bottleneck残差模块中的卷积结构,构成C3_SAC模块来组成YOLOv5的backbone网络。步骤3:把坐标注意力机制(CA)与改进的空间注意力机制(SA)进行结合,改进成一个新的注意力机制模块,来增强网络对目标的关注度,把CSA注意力机制模块,加入到YOLOv5的backbone结构中,分别加入到第5,8,13层的位置。步骤4:将YOLOv5中的Ciou损失函数进行替换,替换成具有角度损失、距离损失和形状损失的Siou损失。步骤5:将步骤1处理完成的交通数据集输入到改进的YOLOv5网络中,设置合适的训练次数,当模型的损失,mAP等指标趋近稳定并且收敛。步骤6:将步骤5训练完成模型的权重文件应用到YOLOv5模型中,在步骤1中选取验证集进行验证。步骤7:使用步骤1处理的同一个交通多目标数据集,在改进的YOLOv5的基础上进行实验,验证改进效果。2.根据权利要求1所述的基于CSA注意力机制和C3_SAC的YOLOv5网络的交通多目标检测方法,其特征在于,步骤1中的Kitti开源数据集具体分类方法为:该数据集包含汽车,交通灯,行人,自行车等9个种类的交通元素,共有7480张图片,通过python脚本对Kitti数据集的标签文本进行提取,并把图片和标签文本按照8:1:1的比例分割为训练集、测试集、验证集。3.根据权利要求1所述的基于CSA注意力机制和C3_SAC的YOLOv5网络的交通多目标检测方法,其特征在于,步骤2中构成C3_SAC模块来组成YOLOv5的backbone网络具体为:可切换空洞卷积(SAC),它对相同的输入特征与不同的Atrous率进行卷积,并使用开关函数收集结果。与标准的3
×
3卷积不同的是可切换的空洞卷积可以通过不同的膨胀率来创建并行的卷积层,以达到动态调整感受野的效果。用可切换空洞卷积来代替YOLOv5网络的C3残差结构中的标准的3
×
3卷积,创建出一个新的残差模块命名为C3_SAC模块,用C3_SAC模块来组成YOLOv5的backbone结构来提取输入图片的特征图。表达式为:y=Conv(x,w,r)其中w来表示权值,r表示空洞率,x表示输入,y表示输出。之后,可以将一个卷积层转换为SAC,其结构如下:其中r为SAC的超参数,Δw为可训练权值,S(
·
)为可切换函数,由一个5
×
5核的平均池化层和一个1
×...

【专利技术属性】
技术研发人员:王健康闫冬梅王正松
申请(专利权)人:东北大学秦皇岛分校
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1