一种基于改进的YOLOv3网络的人数识别统计方法及系统技术方案

技术编号:33435794 阅读:11 留言:0更新日期:2022-05-19 00:24
本发明专利技术公开了一种基于改进的YOLOv3网络的人数识别统计方法及系统,所述人数识别统计方法包括:采集人物图像,对人物图像进行标注生成数据集,将数据集分为训练集和测试集;对训练集进行聚类分析,确定目标锚值;将YOLOv3网络模型中的主干特征提取网络Darknet53改进为CSPDarknet53,加入空间金字塔池化SPP模块,生成YOLOv3目标检测优化模型;将经过聚类分析后的训练集输入到YOLOv3目标检测优化模型中进行训练,生成人数识别统计模型,并通过测试集对人数识别统计模型进行测试。本发明专利技术通过对YOLOv3网络模型的改进,提高了检测的准确性和实时性。实时性。实时性。

【技术实现步骤摘要】
一种基于改进的YOLOv3网络的人数识别统计方法及系统


[0001]本专利技术属于图像识别领域,尤其涉及一种基于改进的YOLOv3网络的人数识别统计方法及系统。

技术介绍

[0002]人数识别统计在早期主要是以人工检测为主,这种人工目检的方式效率低且检测速度慢,劳动强度大,检测准确性和实时性比较差。近几十年来,随着机器视觉领域的发展,利用机器学习算法很好的克服了人工目测的缺点,机器视觉的快速检测技术得到了越来越多人的青睐,例如一些研究者将模板匹配算法应用在人数识别统计。
[0003]随着机器学习的发展,各种用于人数识别统计的算法也相继被提出,特别是近几年来深度学习的崛起,卷积神经网络在图像识别方向取得了很大的成功,由其衍生的目标检测算法广泛应用于缺陷检测领域,例如YOLOv3系列算法以及以Faster

RCNN为代表的检测算法,使缺陷检测的实时性和准确性得到进一步的提高。
[0004]目前CNN(Convolutional Neural Networks)已经广泛应用于机器学习、语音识别、图像识别等多个领域。以CNN为基础的目标检测算法、人群计数算法的发展也趋于稳定,在大部分场景中已有实际运用。在传统的人群计数方法中,常用的有基于检测的方法和基于回归的方法。基于检测的方法通常会利用SVM和随机森林等传统机器学习方法训练一个分类器,利用人体的整体或部分结构,如头部、肩膀等提取HOG(His-tograms of Oriente Gradients)、边缘等特征来检测并统计人数。但该方法并不适用于人群遮挡的场景,针对不同尺度大小目标的检测效果并不理想。基于回归的方法,其思想是学习一种特征到人群数量的映射,通常是学习一个回归模型来估计人群的数量。相较于传统机器学习的方法,深度学习在计算机视觉的识别、检测方面取得了很大的进步,识别精度有了很大的提高。无论是使用目标检测的方法还是基于回归的方法在CNN上都能得到优于传统机器学习方法的结果,随着深度学习的不断发展,在目标检测等多领域体现出明显。优势已经逐渐开始取代传统的机器学习方法。
[0005]YOLO(You Only Look Once)是Joseph Redmon等人于2015年提出的目标检测算法,最初的版本最多只能检测49个目标。当前,已有YOLOv1、YOLOv2和YOLOv3等多个版本。最新的版本中YOLOv3调整了网络结构,利用多尺度特征进行对象检测并且借鉴了残差网络结构,形成更深的网络层次。相较于前两个版本,YOLOv3可分类的目标更多、检测的目标更多、检测速度更快并且检测精度也更高。在精确度相当的情况下,YOLOv3的速度是其它目标检测模型的3、4倍。
[0006]YOLOv3通过融合当前检测领域的最新成果,可以实现精度与速度的良好平衡。YOLOv3使用的是全卷积层,通过修改卷积层的尺寸来实现特征图尺寸的修改。YOLOv3网络使用的主干特征提取网络为Darknet53结构,其共有5个大残差块,每个大残差块所包含的小残差单元个数为1、2、8、8、4。YOLOv3主干部分由5个残差模块构成,降低梯度爆裂的破坏性,增强网络的学习能力。
[0007]但是YOLOv3的最小特征图尺寸为13
×
13,仍然偏大,对于部分中型尺寸甚至较大尺寸物体的检测结果精确度不尽人意。同时具有梯度组合不够丰富、计算量较大、特征提取网络感受野较小等缺点。

技术实现思路

[0008]有鉴于此,本专利技术的目的之一在于提供一种基于改进的YOLOv3网络的人数识别统计方法,用于实现人数识别统计等功能,通过对YOLOv3网络模型的改进,提高了检测的准确性和实时性。
[0009]本专利技术的另一目的还在于提供一种能够实现上述基于改进的YOLOv3网络的人数识别统计方法的系统。
[0010]为实现上述目的,本专利技术第一方面提供了一种基于改进的YOLOv3网络的人数识别统计方法,包括如下步骤:
[0011]采集人物图像,对所述人物图像进行标注生成数据集,将所述数据集分为训练集和测试集;
[0012]对所述训练集进行聚类分析,确定目标锚值;
[0013]将YOLOv3网络模型中的主干特征提取网络Darknet53改进为CSPDarknet53,加入空间金字塔池化SPP模块,生成YOLOv3目标检测优化模型;
[0014]将经过聚类分析后的所述训练集输入到所述YOLOv3目标检测优化模型中进行训练,生成人数识别统计模型,并通过所述测试集对所述人数识别统计模型进行测试。
[0015]优选的,所述对所述人物图像进行标注生成数据集,包括:
[0016]对所述人物图像中的人物和人数进行标注生成数据集。
[0017]优选的,所述将所述数据集分为训练集和测试集,包括:
[0018]所述训练集和测试集的选取比例为2∶1。
[0019]优选的,所述对所述训练集进行聚类分析,确定目标锚值,包括:
[0020]利用k

mean++算法对所述训练集进行聚类分析,选取初始聚类中心,计算IoU和度量值d,确定目标锚值。
[0021]优选的,所述将YOLOv3网络模型中的主干特征提取网络Darknet53改进为CSP Darknet53,包括:
[0022]对所述主干特征提取网络Darknet53的resblock_body的结构进行修改,改进为CSPDarknet53。
[0023]优选的,所述将经过聚类分析后的所述训练集输入到所述YOLOv3目标检测模型中进行训练,包括如下步骤:
[0024]将所述训练集中的人物图像归一化到416
×
416,输入到所述YOLOv3目标检测优化模型中;
[0025]将所述人物图像输入到CSPDarknet53中进行下采样,经过卷积和残差块的堆叠进行特征提取,对最后一层的特征层进行四种不同尺度的最大池化处理,极大增加感受野,分离出上下文特征,再对深层信息进行上采样,通过concat函数将深层信息与较浅层信息不断堆叠和拼接实现特征融合;
[0026]在特征融合过后得到四个尺度的特征图,分别为13
×
13,26
×
26,52
×
52,104
×
104;
[0027]根据四个尺度的特征图可以得到预测框位置信息以及其对应的类别概率、置信度,剔除掉置信度小于设定阈值对应的预测框,得到置信度比较高的预测框。
[0028]优选的,所述预测框的位置信息通过以下公式确定:
[0029]b
x
=σ(t
x
)+c
x
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.1)
[0030]b
y
=σ(t
y
)+c
y
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1.2)
[0031]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进的YOLOv3网络的人数识别统计方法,其特征在于,包括如下步骤:采集人物图像,对所述人物图像进行标注生成数据集,将所述数据集分为训练集和测试集;对所述训练集进行聚类分析,确定目标锚值;将YOLOv3网络模型中的主干特征提取网络Darknet53改进为CSPDarknet53,加入空间金字塔池化SPP模块,生成YOLOv3目标检测优化模型;将经过聚类分析后的所述训练集输入到所述YOLOv3目标检测优化模型中进行训练,生成人数识别统计模型,并通过所述测试集对所述人数识别统计模型进行测试。2.根据权利要求1所述的基于改进的YOLOv3网络的人数识别统计方法,其特征在于,所述对所述人物图像进行标注生成数据集,包括:对所述人物图像中的人物和人数进行标注生成数据集。3.根据权利要求1所述的基于改进的YOLOv3网络的人数识别统计方法,其特征在于,所述将所述数据集分为训练集和测试集,包括:所述训练集和测试集的选取比例为2∶1。4.根据权利要求1所述的基于改进的YOLOv3网络的人数识别统计方法,其特征在于,所述对所述训练集进行聚类分析,确定目标锚值,包括:利用k

mean++算法对所述训练集进行聚类分析,选取初始聚类中心,计算IoU和度量值d,确定目标锚值。5.根据权利要求1所述的基于改进的YOLOv3网络的人数识别统计方法,其特征在于,所述将YOLOv3网络模型中的主干特征提取网络Darknet53改进为CSP Darknet53,包括:对所述主干特征提取网络Darknet53的resblock_body的结构进行修改,改进为CSPDarknet53。6.根据权利要求1所述的基于改进的YOLOv3网络的人数识别统计方法,其特征在于,所述将经过聚类分析后的所述训练集输入到所述YOLOv3目标检测模型中进行训练,包括如下步骤:将所述训练集中的人物图像归一化到416
×
416,输入到所述YOLOv3目标检测优化模型中;将所述人物图像输入到CSPDarknet53中进行下采样,经过卷积和残差块的堆叠进行特征提取,对最后一层的特征层进行四种不同尺度的最大池化处理,再对深层信息进行上采样,通过concat函数将深层信息与较浅层信息不断堆叠和拼接实现特征融合;在特征融合过后得到四个尺度的特征图,分别为13
×
13,26
×
26,52
×
52,104
×
104;根据四个尺度的特征图可以得到预测框位...

【专利技术属性】
技术研发人员:薛阳王翔何文许恒
申请(专利权)人:上海申视信科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1