基于改进YOLOv5-L的宠物犬视频目标检测方法及系统技术方案

技术编号:36288542 阅读:25 留言:0更新日期:2023-01-13 10:00
本发明专利技术提出了一种基于改进YOLOv5

【技术实现步骤摘要】
基于改进YOLOv5

L的宠物犬视频目标检测方法及系统


[0001]本专利技术涉及视频目标检测
,更具体地,涉及一种基于改进YOLOv5

L的宠物犬视频目标检测方法及系统。

技术介绍

[0002]当前社会,宠物犬已经是很多人共同生活的伙伴,人们为了消除孤寂或出于娱乐目的而豢养它们,宠物犬是一种灵性、聪明的动物,它们在经过人类驯化以后,动作敏捷,善解人意,忠诚主人,同时理解宠物犬的动作行为也是一项重要的研究工作。
[0003]目标检测是目前计算机视觉领域的热点,传统的分类任务一般只关心整体,得到的是一张图像的内容描述,而目标检测任务则不同,目标检测关注的是特定的物体目标,目标检测需要的是从背景中提取出感兴趣的目标,并确定这一目标的位置,因而目标检测输出的是一个列表,包含目标的类别和位置。现有的目标检测算法一般分为两种:two

stage检测模型和one

stage检测模型。two

stage检测模型先进行区域生成,该区域称之为region proposal,在通过卷积网络进行样本的分类,常用的two

stage检测模型有R

CNN、SPP

Net、fast R

CNN等。one

stage检测模型则不需要生成region proposal,直接从输入数据中提取特征,直接预测物体的类别和位置信息,常用的算法有:SSD和YOLO。
[0004]虽然现有的two

stage检测模型在通用数据集上测试的精度不错,但是这些模型的检测速度非常慢,尤其是在进行视频的检测时,面对fps大于25的视频,two

stage检测模型完全做不到实时的检测。相较于two

stage检测模型,one

stage检测模型的速度更快,其中YOLOv5模型的检测速度远高于two

stage检测模型。但是现有的目标检测模型只适合检测形状规则的物体,在宠物犬视频目标检测中,当宠物犬在运动时,形态发生改变,该模型就很难检测准确。

技术实现思路

[0005]针对上述问题,本专利技术的目的在于提供一种基于改进YOLOv5

L的目标检测模型,并通过预处理数据集,进行数据加强,提升检测宠物犬运动视频帧时的精确度。
[0006]基于上述目的,本专利技术提出了一种基于改进YOLOv5

L的宠物犬视频目标检测方法及系统。
[0007]一种基于改进YOLOv5

L的宠物犬视频目标检测方法,包括如下步骤:
[0008]基于获取到的包含宠物犬图像数据和获取到的包含宠物犬的视频数据分别构建初始训练集测试集;
[0009]对所述包含宠物犬的视频进行帧提取,得到帧图像;
[0010]对所述初始训练集进行预处理,得到最终训练集;
[0011]改进YOLOv5

L模型并进行训练,具体为:搭建BackBone网络,改进Pred模块,在BackBone网络后加入SK注意力机制;设置训练参数,对改进后的YOLOv5

L模型进行训练,保存最佳权重参数文件;将所述最佳权重参数文件放入检测器中,对所述最终测试集中视频
进行检测,保存所有检测到宠物犬的视频帧,使用AP指标对检测结果进行评估,进而得到最佳改进YOLOv5

L模型;
[0012]将待测宠物犬视频输入最佳YOLOv5

L模型,得到相应的检测结果。作为一种可实施方式,所述构建初始训练集和测试集,包括以下步骤:
[0013]基于获取到的包含宠物犬图像数据,得到所有已标注的宠物犬图片;
[0014]带有不同背景噪声的宠物犬图片,使用LabelImg标注工具对所有图片进行标注,得到已标注的宠物犬图片,其中所述不同背景噪声至少包括草地、雪山、屋内及街道中的一种或几种;
[0015]将所述已标注的宠物犬图片合并为初始训练集;
[0016]在视频网站搜集人与宠物犬互动的视频,使用4K Video工具进行下载保存;
[0017]裁剪保存的视频,使原视频拆分为3s

10s的短视频,保存所有短视频得到测试集。
[0018]作为一种可实施方式,所述对测试集中的视频进行帧提取和对初始训练集进行预处理,包括以下步骤:
[0019]通过extractor算法对测试集中视频进行逐帧提取,保存所有视频帧图像;
[0020]从所述视频帧图像中选取部分宠物犬形态异常和运动模糊的图片并进行标注,得到标注图片;
[0021]随机选取若干所述标注图片进行左右平移、多图叠加及比例缩放,得到多种形态特征的已处理标注图片;
[0022]将所述已处理标注图片和所述初始训练集进行合并得到最终训练集。
[0023]作为一种可实施方式,所述搭建BackBone网络包括下采样模块、CBR模块、Res模块、CSP_X模块;
[0024]所述下采样模块;采用split算法将640像素*640像素RGB图像切分为12通道特征图,通过卷积得到64通道特征图;
[0025]所述CBR模块;包括3*3卷积层、正则化层及Relu函数;
[0026]所述Res模块;包括两个CBR模块和空层残差并且相互连接;
[0027]所述CSP_X模块;用于提取特征,包括相互连接的CBR模块、X个Res模块及空层残差,其中,X表示个数。
[0028]作为一种可实施方式,所述改进Pred模块,包括:在输出层前面加入flatten算法,将特征图一维化,将输出层中的卷积层替换为全连接层。
[0029]作为一种可实施方式,所述SK注意力机制包括split单元、fuse单元及select单元;split单元通过三种尺寸的卷积核对原特征图进行卷积;fuse单元计算每个卷积核的权重,将三个分支的特征图按元素求和,通过全局平均池化生成通道统计信息,得到新的特征维度为C*1;select单元利用softmax计算每个卷积核的权重,融合所有卷积核形成最终输出的卷积核。
[0030]作为一种可实施方式,所述改进YOLOv5

L模型并进行训练,还包括以下步骤:
[0031]修改YAML配置文件中的number class更改检测类别,类别包括:dog、human;
[0032]设定NMS机制用于保留预测最好的预测框,将其余预测框的置信度降为0;
[0033]设定损失函数为DIOU_Loss;
[0034]设置训练超参数,设置训练轮数为300,优化器为改进SGD,初始学习率为0.01,学
习率动量为0.95,训练批次为64;
[0035本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进YOLOv5

L的宠物犬视频目标检测方法,其特征在于,包括如下步骤:基于获取到的包含宠物犬图像数据和获取到的包含宠物犬的视频数据分别构建初始训练集测试集;对所述包含宠物犬的视频进行帧提取,得到帧图像;对所述初始训练集进行预处理,得到最终训练集;改进YOLOv5

L模型并进行训练,具体为:搭建BackBone网络,改进Pred模块,在BackBone网络后加入SK注意力机制;设置训练参数,对改进后的YOLOv5

L模型进行训练,保存最佳权重参数文件;将所述最佳权重参数文件放入检测器中,对所述最终测试集中视频进行检测,保存所有检测到宠物犬的视频帧,使用AP指标对检测结果进行评估,进而得到最佳改进YOLOv5

L模型;将待测宠物犬视频输入最佳YOLOv5

L模型,得到相应的检测结果。2.根据权利要求1所述基于改进YOLOv5

L的宠物犬视频目标检测方法,其特征在于,所述构建初始训练集和测试集,包括以下步骤:基于获取到的包含宠物犬图像数据,得到所有已标注的宠物犬图片;带有不同背景噪声的宠物犬图片,使用LabelImg标注工具对所有图片进行标注,得到已标注的宠物犬图片,其中所述不同背景噪声至少包括草地、雪山、屋内及街道中的一种或几种;将所述已标注的宠物犬图片合并为初始训练集;在视频网站搜集人与宠物犬互动的视频,使用4KVideo工具进行下载保存;裁剪保存的视频,使原视频拆分为3s

10s的短视频,保存所有短视频得到测试集。3.根据权利要求1所述基于改进YOLOv5

L的宠物犬视频目标检测方法,其特征在于,所述对测试集中的视频进行帧提取和对初始训练集进行预处理,包括以下步骤:通过extractor算法对测试集中视频进行逐帧提取,保存所有视频帧图像;从所述视频帧图像中选取部分宠物犬形态异常和运动模糊的图片并进行标注,得到标注图片;随机选取若干所述标注图片进行左右平移、多图叠加及比例缩放,得到多种形态特征的已处理标注图片;将所述已处理标注图片和所述初始训练集进行合并得到最终训练集。4.根据权利要求1所述基于改进YOLOv5

L的宠物犬视频目标检测方法,其特征在于,所述搭建BackBone网络包括下采样模块、CBR模块、Res模块、CSP_X模块;所述下采样模块;采用split算法将640像素*640像素RGB图像切分为12通道特征图,通过卷积得到64通道特征图;所述CBR模块;包括3*3卷积层、正则化层及Relu函数;所述Res模块;包括两个CBR模块和空层残差并且相互连接;所述CSP_X模块;用于提取特征,包括相互连接的CBR模块、X个Res模块及空层残差,其中,X表示个数。5.根据权利要求1所述基于改进YOLOv5

...

【专利技术属性】
技术研发人员:黄步添汪志刚刘振广焦颖颖许曼迪
申请(专利权)人:杭州云象网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1