基于重参数化残差结构和坐标注意力机制的YOLOV4的图像识别算法及系统技术方案

技术编号:37911334 阅读:14 留言:0更新日期:2023-06-21 22:34
本发明专利技术公开了一种基于重参数化残差结构和坐标注意力机制的YOLOV4的图像识别算法及系统。其中,该算法包含以下的步骤:获取待识别图像集;运用Mosaic数据增强方式对输入训练图像集进行处理,利用K

【技术实现步骤摘要】
基于重参数化残差结构和坐标注意力机制的YOLOV4的图像识别算法及系统


[0001]本专利技术涉及图像处理和模式识别领域,特别涉及一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法及系统。

技术介绍

[0002]目标识别在图像处理领域中占有重要的地位,其是对目标同时进行定位与分类。传统的目标识别算法包括V

J(Viola

Jones)检测算法,方向梯度直方图(Histogram of Oriented Gradient,HOG)检测算法和可变形部件模型(Deformable Parts Model,DPM)算法。V

J检测算法主要用于人脸检测,主要原理是通过对输入图像进行窗口滑动来搜索haar特征。HOG检测算法是通过提取梯度来构建对应的特征表,对图像每个网格构建直方图。DPM是深度学习算法兴起前最为成功的传统检测模型。但是传统算法在复杂背景以及多检测目标的情况下,速度和精度都不占有优势。所以近年来,研究学者的热点研究方向是基于深度学习的目标检测算法,与传统的学习算法相比,深度学习算法拥有更快的识别速度与更稳定的识别结果。目标识别的深度学习算法分为一阶段算法和二阶段算法,一阶段算法的典型代表包括YOLO系列和SSD。二阶段算法的典型代表包括R

CNN,Fast R

CNN和Faster R

CNN等。二阶段算法目标识别的速度慢、精度高,一阶段算法目标识别的速度快、精度低,但是在近两年内,一阶段算法中的典型代表YOLO系列,在目标识别的精度与速度方面得到了非常好的平衡效果。
[0003]以下对该系列算法进行简单的介绍:
[0004]2016年,Joseph Redmon等人提出了YOLO系列的第一代模型YOLOV1,该模型具体原理为,将输入的图片分为n
×
n个网格,每个网格预测x个候选框和物体的类别,该模型检测速度非常快,每秒可以处理45张图像,但是检测精度较差。在2017年,第二代模型YOLOV2在第一代模型的基础上,对主干网络添加了平均池化层和BN层,使模型收敛的更快,并且引入了瞄框机制,不直接预测坐标值,通过坐标的偏移量和置信度就可以相对准确的得到目标的定位。在2018年,通过对第二代模型YOLOV2进行改进,得到了模型YOLOV3,该模型选择了三种尺度大小不同的瞄框,以实现对大小不同目标的准确检测,并且在分类层选用多标签分类,可以对每种类型进行是与不是的判断,以达到更高的精度。在2020年,第四代的模型YOLOV4被推出,其主干网络选择 CSPDarknet53,添加了SPP模块以及FPN+PAN的特征融合结构,这样的改进不仅让该模型具有速度方面的优势,在检测精度方面对比其他模型也具有显著优势。但是该模型仍有需要改进的地方,以实现更好的预测效果。

技术实现思路

[0005]本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。
[0006]为此,本专利技术的第一个目的在于提出一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,该算法适用于复杂背景下的目标识别,并且在推理阶段速度有
大幅提升。
[0007]本专利技术的另外一个目的在于提出一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别系统。
[0008]为了达到上述的两个目的,本专利技术在第一个方面实施提出了一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,包括了以下的步骤:输入待识别图像集;对输入的训练图像集进行数据增强,并利用K

means++ 聚类算法计算得到训练图像集的初始瞄框;获取重参数化残差结构和坐标注意力机制的YOLOV4模型,该模型基于YOLOV4,在特征提取阶段添加X、Y 两个方向的空间信息,可以提升模型的准确率,在复杂特征的提取阶段,添加了重参数化的残差结构,可以使模型推理速度提升;根据所述重参数化残差结构和坐标注意力机制的YOLOV4模型和所述训练图像集、验证图像集进行模型训练,以生成重参数化残差结构和坐标注意力机制的YOLOV4识别模型;根据所述待识别图像集通过重参数化残差结构和坐标注意力机制的YOLOV4 识别模型得到图像识别结果。
[0009]本专利技术实施例的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,可以通过深度学习残差网络理论和基于深度学习的模型训练算法获得基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别模型,该模型不受待识别图像背景的复杂程度限制,鲁棒性更好,推理速度更快,从而可以有效提高目标识别的精准性和快速性。
[0010]另外,根据本专利技术上述实施例的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法还可以具有下述的附加技术特征:
[0011]第一步,在本专利技术中的一个实施例中,所述的YOLOV4模型包括输入端、主干网络、瓶颈网络和输出端。输入端将训练图像集进行数据增强,并根据 K

means++聚类算法计算得到训练图像集的初始瞄框。主干网络包括Darknet53 网络,Mish激活函数以及Leaky relu激活函数。瓶颈网络包括SPP模块和 FPN+PAN的特征融合结构。输出端包括CIOU_Loss损失函数和CIOU_nms 预测框筛选方法。
[0012]第二步,在本专利技术中的一个实施例中,所述训练时运用的Rer包括第一个瓶颈模块1(Bottleneck1)与第一个1
×
1的卷积层进行Add操作,经过Mish 激活函数,并通过第一个瓶颈模块2(Bottleneck2)与第二个1
×
1的卷积层进行Add操作,最后通过Mish激活函数。其中,Add具体操作为将特征图在维度不变的条件下,进行特征图信息的叠加,使描述图像特征的信息增多。 Bottleneck1包括第一个3
×
3的卷积层与第一个1
×
1的卷积层进行Add操作。 Bottleneck2包括第一个3
×
3的卷积层,第一个1
×
1的卷积层和Identity进行 Add操作。所述模型在推理前对残差结构进行重参数化,将Bottleneck1和 Bottleneck2分别转换为3
×
3的卷积层,最后将Rer转换为两个串联的3
×
3 的卷积层,转换后的单路结构可以大幅加快推理速度。具体的重参数化融合过程包括将各卷积层与BN层进行融合,卷积层可表示为:
[0013]Conv(x)=W(x)+b
[0014]其中x表示输入向量,Conv表示卷积操作,W表示权重向量,b表示偏置。
[0015]BN层可表示为:
[0016][0017]其中x表示输入向量,BN表示批归一化操作,mean表示输入向量的平均值, var表
示输入向量的方差,β、γ表示可学习参数。
[0018]将卷本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,包括:输入待识别图像集;对训练图像集进行数据增强,并利用K

means++聚类算法计算得到图像集初始瞄框;获取重参数化残差结构和坐标注意力机制的YOLOV4模型;根据重参数化残差结构和坐标注意力机制的YOLOV4模型和训练图像集、验证图像集进行模型训练,以生成识别模型;将待识别图像集输入重参数化残差结构和坐标注意力机制的YOLOV4识别模型,得到图像识别结果。2.根据权利要求1所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,所述YOLOV4模型包括输入端、主干网络、瓶颈网络、输出端四个部分。输入端将训练图像集进行数据增强,并利用K

means++聚类算法对该训练图像集进行初始瞄框的设定。主干网络选用Darknet53网络,其可以提取图像集的特征。瓶颈网络包括特征金字塔网络(Feature Pyramid Networks,FPN)和金字塔自注意力网络(Pyramid Attention Network,PAN),这两种结构可以提取图像集的复杂特征。输出端包括卷积模块,最终预测得到目标的位置和类别。3.根据权利要求1所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,所述网络中重参数化的残差结构(Reparametric residual structure,Rer)在模型训练时采用具有分支的残差结构,将具有分支的残差结构进行重参数化后得到单路卷积模块,在推理过程中使用上述单路卷积模块。所述训练时运用的Rer包括第一个瓶颈模块1(Bottleneck1)与第一个1
×
1的卷积层进行Add操作,经过Mish激活函数,并通过第一个瓶颈模块2(Bottleneck2)与第二个1
×
1的卷积层进行Add操作,最后通过Mish激活函数。其中Add操作的具体原理是,在特征图维度不变的条件下,进行特征图信息的叠加,使描述图像特征的信息增多。Bottleneck1包括第一个3
×
3的卷积层和第一个1
×
1的卷积层进行Add操作。Bottleneck2包括第一个3
×
3的卷积层,第一个1
×
1的卷积层和原本输入(Identity)进行Add操作。所述模型在推理前对残差结构进行重参数化,将Bottleneck1和Bottleneck2分别转换为3
×
3的卷积层,最后将Rer转换为两个串联的3
×
3的卷积层,转换后的单路结构可以大幅加快推理速度。4.根据权利要求1所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,所述加入的坐标注意力机制可以对X、Y两个空间方向的特征图进行聚合,其包括X、Y两个空间方向上的平均池化,可表示为:其中x为指定输入,d表示通道数,使用(H,1),(1,W)的平均池化核分别沿着水平方向和竖直方向的每个通道进行编码,i表示高度上的每一个特征点,j表示宽度上的每一个特征点,z表示X、Y两方向进行平均池化后的输出,坐标注意力机制可以提取到一个空间方向上的位置精度信息和另一个空间方向上的远程依赖关系。5.根据权利要求2所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,所述YOLOV4模型的输入端包括Mosaic数据增强,首先将任意四张图片进
行裁剪、缩小、透明度变换等基本处理,后将处理后的四张图片拼接成为一张新图,该操作不仅可以加快模型的推理速度,还可以对训练图像集进行数据增强。使用Dropblock正则化方法来缓解模型训练中出现的过拟合现象,具体操作是在特征图中随机的丢弃成块的特征点。6.根据权利要求2所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,所述YOLOV4模型的主干网络选用Darknet53,基准网络中的激活函数选用Mish激活函数和Leaky relu激活函数。7.根据权利要求2所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,所述YOLOV4模型的瓶颈网络,选用金字塔池化层(Spatial Pyramid Pooling Layer,SPP),其包括同时对输入特征图进行第一个1
×
1最大池化层、第一个5
×
5最大池化层、第一个9
×
9最大池化层并将三种不同最大池化核进行池化后的特征图与原特征图进行Concat操作,其中...

【专利技术属性】
技术研发人员:王瑜毕玉闫善武
申请(专利权)人:北京工商大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1