【技术实现步骤摘要】
基于重参数化残差结构和坐标注意力机制的YOLOV4的图像识别算法及系统
[0001]本专利技术涉及图像处理和模式识别领域,特别涉及一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法及系统。
技术介绍
[0002]目标识别在图像处理领域中占有重要的地位,其是对目标同时进行定位与分类。传统的目标识别算法包括V
‑
J(Viola
‑
Jones)检测算法,方向梯度直方图(Histogram of Oriented Gradient,HOG)检测算法和可变形部件模型(Deformable Parts Model,DPM)算法。V
‑
J检测算法主要用于人脸检测,主要原理是通过对输入图像进行窗口滑动来搜索haar特征。HOG检测算法是通过提取梯度来构建对应的特征表,对图像每个网格构建直方图。DPM是深度学习算法兴起前最为成功的传统检测模型。但是传统算法在复杂背景以及多检测目标的情况下,速度和精度都不占有优势。所以近年来,研究学者的热点研究方向是基于深度学习的目标检测算法,与传统的学习算法相比,深度学习算法拥有更快的识别速度与更稳定的识别结果。目标识别的深度学习算法分为一阶段算法和二阶段算法,一阶段算法的典型代表包括YOLO系列和SSD。二阶段算法的典型代表包括R
‑
CNN,Fast R
‑
CNN和Faster R
‑
CNN等。二阶段算法目标识别的速度慢、精度高,一阶段算法目标识别的速度快、精度低,但是在近两年 ...
【技术保护点】
【技术特征摘要】
1.一种基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,包括:输入待识别图像集;对训练图像集进行数据增强,并利用K
‑
means++聚类算法计算得到图像集初始瞄框;获取重参数化残差结构和坐标注意力机制的YOLOV4模型;根据重参数化残差结构和坐标注意力机制的YOLOV4模型和训练图像集、验证图像集进行模型训练,以生成识别模型;将待识别图像集输入重参数化残差结构和坐标注意力机制的YOLOV4识别模型,得到图像识别结果。2.根据权利要求1所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,所述YOLOV4模型包括输入端、主干网络、瓶颈网络、输出端四个部分。输入端将训练图像集进行数据增强,并利用K
‑
means++聚类算法对该训练图像集进行初始瞄框的设定。主干网络选用Darknet53网络,其可以提取图像集的特征。瓶颈网络包括特征金字塔网络(Feature Pyramid Networks,FPN)和金字塔自注意力网络(Pyramid Attention Network,PAN),这两种结构可以提取图像集的复杂特征。输出端包括卷积模块,最终预测得到目标的位置和类别。3.根据权利要求1所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,所述网络中重参数化的残差结构(Reparametric residual structure,Rer)在模型训练时采用具有分支的残差结构,将具有分支的残差结构进行重参数化后得到单路卷积模块,在推理过程中使用上述单路卷积模块。所述训练时运用的Rer包括第一个瓶颈模块1(Bottleneck1)与第一个1
×
1的卷积层进行Add操作,经过Mish激活函数,并通过第一个瓶颈模块2(Bottleneck2)与第二个1
×
1的卷积层进行Add操作,最后通过Mish激活函数。其中Add操作的具体原理是,在特征图维度不变的条件下,进行特征图信息的叠加,使描述图像特征的信息增多。Bottleneck1包括第一个3
×
3的卷积层和第一个1
×
1的卷积层进行Add操作。Bottleneck2包括第一个3
×
3的卷积层,第一个1
×
1的卷积层和原本输入(Identity)进行Add操作。所述模型在推理前对残差结构进行重参数化,将Bottleneck1和Bottleneck2分别转换为3
×
3的卷积层,最后将Rer转换为两个串联的3
×
3的卷积层,转换后的单路结构可以大幅加快推理速度。4.根据权利要求1所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,所述加入的坐标注意力机制可以对X、Y两个空间方向的特征图进行聚合,其包括X、Y两个空间方向上的平均池化,可表示为:其中x为指定输入,d表示通道数,使用(H,1),(1,W)的平均池化核分别沿着水平方向和竖直方向的每个通道进行编码,i表示高度上的每一个特征点,j表示宽度上的每一个特征点,z表示X、Y两方向进行平均池化后的输出,坐标注意力机制可以提取到一个空间方向上的位置精度信息和另一个空间方向上的远程依赖关系。5.根据权利要求2所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,所述YOLOV4模型的输入端包括Mosaic数据增强,首先将任意四张图片进
行裁剪、缩小、透明度变换等基本处理,后将处理后的四张图片拼接成为一张新图,该操作不仅可以加快模型的推理速度,还可以对训练图像集进行数据增强。使用Dropblock正则化方法来缓解模型训练中出现的过拟合现象,具体操作是在特征图中随机的丢弃成块的特征点。6.根据权利要求2所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,所述YOLOV4模型的主干网络选用Darknet53,基准网络中的激活函数选用Mish激活函数和Leaky relu激活函数。7.根据权利要求2所述的基于重参数化残差结构和坐标注意力机制的YOLOV4图像识别算法,其特征在于,所述YOLOV4模型的瓶颈网络,选用金字塔池化层(Spatial Pyramid Pooling Layer,SPP),其包括同时对输入特征图进行第一个1
×
1最大池化层、第一个5
×
5最大池化层、第一个9
×
9最大池化层并将三种不同最大池化核进行池化后的特征图与原特征图进行Concat操作,其中...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。