System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于注意力机制和动态卷积的车辆目标检测和识别方法技术_技高网

基于注意力机制和动态卷积的车辆目标检测和识别方法技术

技术编号:41302852 阅读:5 留言:0更新日期:2024-05-13 14:49
基于注意力机制和动态卷积的车辆目标检测和识别方法。针对复杂交通环境中车辆目标与周围环境的融合问题以及拥堵场景下的目标重叠问题,提出了一种能够实时车辆目标的YOLOv5‑vd神经网络模型,在YOLOv5模型基础上,骨干网络中加入全局注意力机制,高效提取全局注意力的特征图,同时引入利用可变形卷积算子DCNv3,可以根据目标的形状自适应的调整卷积核采样的位置,提高对多尺度目标的建模能力,使得模型在复杂场景下具有更强的泛化能力,在Head输出前,针对边界框回归效果较差的问题,将Focal‑EIoU替换原本的损失函数。

【技术实现步骤摘要】

本专利技术的技术方案涉及智慧交通中目标检测与识别领域,具体是一种基于注意力机制与动态卷积的车辆目标检测与识别方法。


技术介绍

1、近年来,随着深度学习目标检测技术的不断研究和推进,智能交通技术的应用有望为城市交通系统提供更为精准的预测和响应能力,为解决车辆目标检测的难题提供了有力的工具,为交通强国的建设提供强大支持,在道路交通场景中车辆目标检测任务提供了新的思路,在传统的图像目标检测中,主要关注的是特定目标的空间布局和目标外观的特征匹配,通过特征算子实现检测和计算检测窗口相邻位置矩形的像素及其差值,然后利用该差值对图像子区域进行分类,经典的特征算子有哈尔特征,它通过差值与阈值进行比较实现目标检测,c此外还有sift特征和hoc特征,前者更加关注图像中的局部特征,后者通过计算局部区域的梯度方向,获取统计值作为该局部区域的特征。

2、由于传统的目标检测模型较为依赖特征算子的性能,而特征算子较为依赖于人工的先验设计,计算量大且适应性较差,容易受到天气、光照、背景剧烈变化的影响,近年来,随着基于深度学习目标检测技术的提出和研究的推进,也为道路交通视频分析中车辆目标检测任务提供了新的思路,基于深度学习的目标检测方法通过卷积自动提取图像中的特征信息,然后根据提取到的特征识别目标,这种方法不依赖于先验的特征算子,还可以获得更加丰富的语义特征,适用于不断变化的检测任务,基于深度学习的目标检测方法可以分为“双阶段”和“单阶段”两类,其中“双阶段”目标检测方法主要以r-cnn、sppnet、fast-rcnn等算法为主,先利用卷积神经网络提取每个候选区域的特征,然后在卷积后的特征图上寻找对应的候选框,利用损失函数计算实现分类和回归,“单阶段”目标检测算法主要以ssd、yolo系列算法为主,与“双阶段”不同的是其没有单独提取roi的过程,而是直接的回归地计算目标类别和位置,运算速度较快,但准确率较低,其中yolov5算法虽然较好的平衡了速度与精度的问题,但其在小目标检测和复杂背景下的目标检测场景中的效果仍然有待提高,尤其是在复杂的交通场景中,存在环境于车辆的目标融合和车辆遮挡的问题,以往的车辆目标检测算法难以适应目标形态的变化,导致对不同场景下车辆目标的识别准确性不高。


技术实现思路

1、针对现有技术在复杂环境中车辆目标容易收到环境的干扰而导致车辆识别的能力的不足,本专利技术解决所述技术问题的技术方案是,基于注意力机制和动态卷积的车辆目标检测和识别方法,该方法包括以下步骤:

2、步骤1,对车辆数据集进行处理,生成可供训练的数据集图像和标注,所述车辆数据集为公开的bitvehicle数据集和根据实际的高速、收费站监控摄像头获取的视频流,bitvehicle数据集通过使用python脚本将其转换为深度学习训练使用的标注格式,对于监控摄像头的视频流使用脚本进行截取并保存,使用图像标注工具makesense进行分类标注,创建数据集,将全部数据集按照比例随机分为训练集、验证集、测试集,其比例为7:2:1;

3、步骤2,采用yolov5-vd神经网络模型即基于注意力机制和动态卷积的改进yolov5神经网络模型进行车辆目标检测,所述yolov5-vd神经网络模型包含,输入端、backbone骨干网络、neck颈部网络和预测输出端;所述yolov5-vd神经网络模型对输入数据进行处理后输出预测结果,具体步骤如下:

4、步骤2.1,在输入端对输入数据进行图像预处理,所述图像预处理包括以下预处理步骤:

5、步骤2.11,使用mosaic进行数据增强,

6、步骤2.12,通过对数据集中的原始图像进行一系列的随机变换包括翻转、缩放拼接等来扩充数据集,

7、图像预处理的目的是防止模型过拟合,yolo模型对不同的目标大小会设置不同的初始设定的锚框,网络在初始锚框的基础上输出预测框,并于真实的检测框进行比较,从计算机损失进而反向更新获得最佳锚框值,然后通过对图片的自适应缩放将图像大小调整为模型期望的输入尺寸,并进行归一化操作,提高训练和推断的稳定性;

8、步骤2.2,将经过输入端进行图像预处理的数据,传入backbone骨干网络中进行特征提取,所述骨干网络中包括sppf模块、conv模块和c3模块,c3模块的网络结构为将输入特征图按通道分割成两部分,其中一部分通过子分支进行处理,然后再与主干分支输出的特征图进行通道拼接,

9、sppf模块(快速空间金字塔池化模块)是一种特征融合的结构,用于实现不同尺度的特征融合,首先对输入的特征图进行不同大小的池化操作,然后通过卷积将不同尺度的池化结果进行融合,最终输出融合后的特征图,这使得网络在处理可变尺寸的输入时还能保持固定维度的输出;

10、骨干网络中直接输出数据至sppf模块的的c3模块改进为基于可变形卷积动态调整卷积核的c3模块,即c3_dcnv3模块;c3_dcnv3模块中,可变形卷积动态调整卷积核加入在c3模块的子分支处理过程中,所述可变形卷积动态调整卷积核的具体步骤如下:首先会接收一个四维向量的特征图x=(n,c,h,w),经过一个输入投影层进行线性变换,将通道数调整为指定大小,

11、x′=winput·x+binput

12、其中,winput表示投影层的权重矩阵,binput是偏置项,然后对其输入进行空间卷积操作

13、z=conv(x′,wdepthwise)

14、其中,wdepthwise表示指深度可分离卷积层的权重矩阵,在偏移层和掩码层通过线性变换生成偏移量和掩码,该偏移量用于确定在dcn操作层中进行下采样的位置,掩码则是对下采样区域进行加权,从而在操作层实现动态卷积,

15、offset=woffset·z+boffset

16、mask=wmask·z+bmask

17、y=dcn(x,offset,mask)

18、其中,woffset和boffset表示生成偏移量的权重矩阵和偏置项,wmask和bmask表示生成掩码权重矩阵和掩码偏置项,最后经过输出投影层将通道数调整为输入大小,输出一个与输入相同大小的四维张量,这样就得到一个经过可变形卷积核操作过的特征图;

19、骨干网络中输出数据至颈部网络的两个c3模块改进为基于全局注意力机制的的c3处理模块即c3_global处理模块;所述c3_global处理模块为在c3模块的的子分支上增加注意力机制,

20、所述的注意力机制对于经骨干网络中其他模块处理得到的特征图的每一个位置,使用卷积核wk和softmax函数能得到一个与全局上下文相关的权重α,然后对所有位置的注意力权重进行求和得到全局上下文特征,再通过卷积wv1和层归一化ln减少优化难度得到特征图,再另一个卷积wv2变换后与输入特征进行特征融合,所述注意力机制的表达公式如下:

21、

22、其中,xi表示输入特征图,zi表示输出特征图,np表本文档来自技高网...

【技术保护点】

1.基于注意力机制和动态卷积的目标检测和识别方法,其特征是该方法包括以下步骤:

2.如权利要求1所述基于注意力机制和动态卷积的目标检测和识别方法,其特征在于训练集、验证集、测试集,其比例为7∶2∶1。

【技术特征摘要】

1.基于注意力机制和动态卷积的目标检测和识别方法,其特征是该方法包括以下步骤:

2.如权利要求...

【专利技术属性】
技术研发人员:顾军华金建铭郑海飞张锡洋黄天博吴金广张平何文颖
申请(专利权)人:河北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1