基于改进YOLOv5模型的大分辨率图像目标检测方法及系统技术方案

技术编号:36384090 阅读:24 留言:0更新日期:2023-01-18 09:46
本发明专利技术提供了一种基于改进YOLOv5模型的大分辨率图像目标检测方法及系统,包括如下:获取包含小目标类别的图像数据构建训练集和验证集;获取大分辨率街景图像构建测试集;改进YOLOv5模型,搭建新的检测模型,新模型包括:输入层、骨干网络、BiFPN结构、Head网络;采用Soft

【技术实现步骤摘要】
基于改进YOLOv5模型的大分辨率图像目标检测方法及系统


[0001]本专利技术涉及图像目标检测
,具体涉及一种基于改进YOLOv5模型的大分辨率图像目标检测方法及系统。

技术介绍

[0002]目标检测是当前计算机视觉领域的热点研究方向,在传统的图像分类任务中,计算机往往只关注输入的图像中最重要的特征,然后输出图像最可能的类别。而目标检测的任务则是识别出输入图像中计算机感兴趣的所有物体,并输出这些物体的类别以及具体的位置,目标检测任务比分类任务要求更高,也更难达到高精准度。
[0003]现有的目标检测模型分为:One

stage检测模型和Two

stage检测模型。Two

stage检测模型先被提出,该模型先在图像中生成大量的候选区域(region proposal),再通过卷积神经网络对这些区域进行特征提取,最后识别类别和位置,常用的Two

stage检测模型有R

CNN、SPP

Net、Fast R

CNN、Faster R

CNN等。虽然Two

stage检测模型在检测精度上越来越高,但是检测速度却很难提升,One

stage检测模型的出现很好的解决了这一问题。One

stage检测模型则不需要生成候选区域,该模型直接从输入图像中提取特征,继而预测物体的类别和位置信息,常用的算法有:SSD和YOLO。
[0004]近几年,随着相机技术的快速发展,关于大分辨率图像的处理任务也越来越多,很多人开始研究大分辨率图像中的目标检测任务。目前通用的是Two

stage检测模型,虽然精度较传统算法有所提升,但是运行速度很慢,达不到实时检测的需求。One

stage检测模型在速度上远远优于Two

stage检测模型,但是无论是YOLO模型,还是SSD模型,在检测时精度都达不到要求,并且大分辨率图像中的物体所占像素点基本很少,以上算法在检测时很容易漏掉小目标。

技术实现思路

[0005]针对上述问题,本专利技术的目的在于基于YOLOv5进行改进,替换骨干网络,减少原模型的参数量,加快检测速度,并且提高小目标检测时的精确度,减少漏检。
[0006]基于上述目的,本专利技术提出了一种基于改进YOLOv5模型的大分辨率图像目标检测方法及系统,本专利技术的技术方案包括如下步骤:
[0007]基于获取到的包括小目标类别的图像数据构建训练集和验证集;
[0008]基于获取到的大分辨率街景图像构建测试集;
[0009]改进YOLOv5模型,搭建新的检测模型,新的检测模型包括:输入层、骨干网络、BiFPN结构及Head网络;
[0010]所述改进YOLOv5模型的具体步骤如下:
[0011]1)在所述输入层中加入clip算法和数据增强方法,对输入图像进行预处理;
[0012]2)采用改进后的EfficientNet网络作为骨干网络,压缩图像得到深度特征图的同时减少参数计算量;
[0013]3)在骨干网络后加入BiFPN结构,用于实现多尺度、高层次的特征融合;
[0014]4)所述Head网络包含三种检测头,分别包含20*20、40*40、80*80三种尺寸预测层,改进初始锚框;
[0015]采用Soft

NMS算法替换NMS算法实现极大值抑制,采用CIOU_Loss作为损失函数,采用Momentum

SGD作为优化器,使用MultiStepLR算法动态调整学习率;
[0016]设置训练参数,利用训练集对新的检测模型进行训练,得到训练后的模型及权重文件,利用验证集和map@0.6指标对训练后的模型进行性能评估;
[0017]基于训练后的模型对测试集中大分辨率街景图像进行检测,得到包含目标类别和目标位置坐标的检测结果。
[0018]进一步地,使用标注工具对所述小目标类别的图像数据进行标注,并根据数据集大小设定划分比例,按照划分比例分为训练集和验证集;所述小目标类别至少包括:汽车、行人、垃圾桶;所述测试集中大分辨率街景图像具体属性如下:自然环境下的街景图像、含有较多行人和汽车、分辨率不小于2560像素*1440像素。
[0019]进一步地,所述clip算法和数据增强方法,包括以下步骤:
[0020]设定滑动窗口大小为640*640,设定宽和高阈值为640、640;
[0021]图像数据进入模型前,拦截宽和高大于阈值的图像,使用滑动窗口从图像左上角开始进行区域裁剪,先向右滑动,再向下滑动,每次裁剪的区域和前一次裁剪的区域的重叠度为20%;
[0022]对裁剪后剩余边缘子图采用letterbox方法填充至640像素*640像素,将裁剪得到的所有图像合并成多通道图像进入模型;
[0023]对进入模型的图像采用augment

hsv算法,提升图像的亮度和饱和度,采用centercrop算法和random

compose算法,裁剪图像中心区域并合并到随机图像上实现随机遮挡和特征丰富。
[0024]进一步地,所述改进后的EfficientNet网络的结构具体如下:
[0025]一个卷积核大小为3*3,步长为2,通道数为64,包含BN和激活函数swish的卷积层;
[0026]四个DSConv结构,该结构由一个1*1的包含BN和h

sigmoid的卷积层,一个k*k的Dep Conv卷积层,一个SE模块,一个1*1的包含BN的卷积层,一个Dropout层构成,其中k取值包括3和5两种情况,所述SE模块由一个全局平均池化层和两个全连接层组成,通过对各个通道特征图进行权值设定,使得模型能自发地关注重要的特征通道图;
[0027]一个1*1的包含BN的卷积层用于降维处理。
[0028]进一步地,所述在骨干网络后加入BiFPN结构,包括以下步骤:
[0029]从所述骨干网络的后端提取五种层次特征,对各层次特征进行特征融合,得到基于特征融合的特征金字塔;
[0030]在所述特征金字塔中自下而上建立通路,实现双向特征金字塔;
[0031]删除只有一条输入边的节点,简化双向特征金字塔;
[0032]在所述双向特征金字塔的原始输入节点和输出节点中间添加带权值的额外边,将每个双向路径作为特征网络层,且每一层重复多次融合进而实现特征融合。
[0033]进一步地,所述改进初始锚框,包括:所述三个检测头的每个检测头都增加一个初始锚框;更换所有初始锚框大小,分别为(3,7),(8,14),(15,21),(21,16);(15,23),(26,
31),(34,41),(44,37);(44,65)本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进YOLOv5模型的大分辨率图像目标检测方法,其特征在于,包括如下步骤:基于获取到的包括小目标类别的图像数据构建训练集和验证集;基于获取到的大分辨率街景图像构建测试集;改进YOLOv5模型,搭建新的检测模型,新的检测模型包括:输入层、骨干网络、BiFPN结构及Head网络;所述改进YOLOv5模型的具体步骤如下:在所述输入层中加入clip算法和数据增强方法,对输入图像进行预处理;采用改进后的EfficientNet网络作为骨干网络,压缩图像得到深度特征图的同时减少参数计算量;在骨干网络后加入BiFPN结构将各尺度特征进行融合;所述Head网络包含三种检测头,分别包含20*20、40*40、80*80三种尺寸预测层,改进初始锚框;采用Soft

NMS算法替换NMS算法实现极大值抑制,采用CIOU_Loss作为损失函数,采用Momentum

SGD作为优化器,使用MultiStepLR算法动态调整学习率;设置训练参数,利用训练集对新的检测模型进行训练,得到训练后的模型及权重文件,利用验证集和map@0.6指标对训练后的模型进行性能评估;基于训练后的模型对测试集中大分辨率街景图像进行检测,得到包含目标类别和目标位置坐标的检测结果。2.根据权利要求1所述的基于改进YOLOv5模型的大分辨率图像目标检测方法,其特征在于,使用标注工具对所述小目标类别的图像数据进行标注,并根据数据集大小设定划分比例,按照划分比例分为训练集和验证集;所述小目标类别包括汽车、行人及垃圾桶;所述测试集中大分辨率街景图像包括自然环境下的街景图像、含有行人和汽车且分辨率不小于2560像素*1440像素。3.根据权利要求1所述的基于改进YOLOv5模型的大分辨率图像目标检测方法,其特征在于,所述clip算法和数据增强方法,包括以下步骤:设定滑动窗口大小为640*640,设定宽和高阈值为640、640;所述训练集和测试集中图像进入模型前,拦截宽和高大于阈值的图像,使用滑动窗口从图像左上角开始进行区域裁剪,先向右滑动,再向下滑动,每次裁剪的区域和前一次裁剪的区域的重叠度为20%;对裁剪后剩余边缘子图采用letterbox方法填充至640像素*640像素,将裁剪得到的所有图像合并成多通道图像进入模型;对进入模型的图像采用augment

hsv算法,提升图像的亮度和饱和度,采用centercrop算法和random

compose算法,裁剪图像中心区域并合并到随机图像上实现随机遮挡和特征丰富。4.根据权利要求1所述的基于改进YOLOv5模型的大分辨率图像目标检测方法,其特征在于,所述改进后的EfficientNet网络的结构包括:卷积核大小为3*3,步长为2,通道数为64,包含BN和激活函数swish的卷积层;
DSConv结构,包括1*1含BN和h

sigmoid的卷积层、k*k的Dep Conv卷积层、SE模块、1*1含BN的卷积层及Dropout层,其中,k取值包括3和5两种情况,所述SE模块包括全局平均池化层和两个全连接层,对各个通道特征图进行权值设定,其中,1*1含BN的卷积层用于降维处理。5.根据权利要求1所述的基于改进YOLOv5模型的大分辨率图像目标检测方法,其特征在于,所述在骨干网络后加入BiFPN结构,包括...

【专利技术属性】
技术研发人员:黄步添汪志刚刘振广焦颖颖许曼迪
申请(专利权)人:杭州云象网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1