密集场景下的多人姿态检测方法技术

技术编号:38716641 阅读:3 留言:0更新日期:2023-09-08 14:59
本发明专利技术提出了一种密集场景下的多人姿态检测方法,主要解决现有技术检测鲁棒性差和分类精度低的问题,其实现方案为:取公开的密集场景下多人姿态的图像集,将其分为训练集和测试集;构建包括浅CNN模块和特征融合模块的定位分类任务并行分支网络;定义定位分类任务并行分支网络中的目标数量损失函数、动态难度权重函数和动态类别权重函数;对定位分类任务并行分支网络进行训练;将测试集输入到训练好的定位分类任务并行分支网络中得到多人姿态检测结果。本发明专利技术避免了目标检测中定位任务对分类任务的约束,缓解了前景背景类不平衡和前景类别不平衡问题,提升了目标检测的鲁棒性和分类精度,可用于密集场景下目标识别。可用于密集场景下目标识别。可用于密集场景下目标识别。

【技术实现步骤摘要】
classroom environment based on improved Faster R

CNN”中提出了一种感兴趣区域ROI池化模块,该模块合并语义特征和来自卷积特征图最后两层的高分辨率特征,使组合的特征比单层特征更具表现力。此外,该方法在特征提取的最后一个全连接层保留了局部特征,使得特征空间中属于同一类的目标特征距离更近,从而具有更强的分类能力。但该方法由于未考虑前景背景类之间的不平衡,阻碍其检测精度的提升。
[0009]Gao等人在Knowledge

Based Systems发表的论文“Multi

scale single

stage pose detection with adaptive sample training in the classroom scene”中提出了一种基于单阶段目标检测器的姿态检测方法。其提出了一个多尺度特征增强分支,以获得平衡且鲁棒的特征;采用自适应融合机制学习互补的空间特征,使特征提取器更具识别力;采用自适应正样本训练策略,在训练过程中充分利用高质量的预测正样本,以获得更好的正样本。该方法虽说解决了正负样本间的不平衡问题,但还依然存在正样本中的类别分布不平衡问题,导致部分类检测精度低。
[0010]所述这些现有技术在目标检测时,其使用的网络架构主要由主干网络、任务特征网络和任务头网络组成。其中主干部分负责提取颜色、形状和纹理这些通用性特征。任务特征网络对主干提取的通用特征进行特征增强,提取特定任务的特征。任务头网络对提取到的特征输出不同形式的结果,完成目标定位和分类两个任务。这些网络架构在推理成本和检测精度上仍可提升,近年来新提出的YOLOv5网络架构,相比于传统的网络架构取得了最先进的目标检测效果。Tang等人发表的论文“Classroom Behavior Detection Based on Improved YOLOv5 Algorithm Combining Multi

Scale Feature Fusion and Attention Mechanism”将YOLOv5应用于密集场景下的目标检测,提出了空间和通道卷积注意力机制来提取深度语义特征,明显提高了检测精度。但由于实际中目标密集且类别相似,使得该方法仍存在检测鲁棒性低的问题。
[0011]上述现有技术由于忽视了定位任务和细粒度分类任务的彼此矛盾及细粒度分类中类别间差异小的问题,因而会导致定位任务对分类任务的约束,降低目标分类精度。

技术实现思路

[0012]本专利技术的目的在于针对上述现有技术的不足,提出一种密集场景下的多人姿态检测方法,以避免定位任务对分类任务的约束,缓解前景背景类不平衡问题和前景类别不平衡问题,提高目标检测的鲁棒性和目标分类精度。
[0013]实现本专利技术目的的技术方案包括如下:
[0014](1)选取公开的密集场景下多人姿态的图像集,将其按8:1:1的比例分为训练集、验证集和测试集;
[0015](2)构建定位分类任务并行分支网络:
[0016](2a)构建与现有目标检测网络YOLOv5主干网络相同的共用主干网络;
[0017](2b)构建两个由两个传统卷积层、两个扩张卷积层和一个传统卷积层依次级联的浅CNN模块;
[0018](2c)构建两个由反卷积层和上采样层组成的特征融合模块,分别为第一特征融合模块和第二特征模块,用于进一步提取两个浅CNN模块和共用主干网络的特征,得到提取特征后的浅CNN模块N层特征图和共用主干网络N层特征图,N≥3;
[0019](2d)将提取特征后的两个浅CNN模块N层特征图分别与共用主干网络N层特征图进行逐层匹配,并对每层逐元素进行相乘得到定位和分类的N层特征图;
[0020](2e)在现有的任务特征网络上新增一个与其结构相同的任务特征网络,以构成并行的定位分支和分类分支,并将定位和分类的N层特征图分别输入到对应分支中生成定位特征金字塔和分类特征金字塔;
[0021](2f)构建与现有目标检测网络YOLOv5定位任务头和分类任务头相同的定位任务头和分类任务头;
[0022](2g)将共用主干网络、(2b)中一个浅CNN模块、第一特征融合模块、定位分支、定位任务头依次级联,将共用主干网络、(2b)中另一个浅CNN模块、第二特征融合模块、分类分支、分类任务头依次级联,构成定位分类任务并行分支网络;
[0023](3)定义定位分类任务并行分支网络中需要用到的函数:
[0024](3a)定义目标数量损失函数L
num
为:
[0025]L
num
=L
MSE
(n
p
,n

p
),
[0026]其中n
p
为第p张图像中预测目标数,n

p
为第p张图像中真实目标数,L
MSE
(n
p
,n

p
)表示计算n
p
和n

p
两者之间的均方误差;
[0027](3b)定义动态类别权重函数ω
i
和动态难度权重函数d
p
为:
[0028][0029]其中,c
i
表示第p张图像中第i类的预测数量;
[0030]表示t张图像的平均目标预测数量;
[0031](4)根据选择的公开图像集设定相应的训练代数,将训练集中的图像输入定位分类任务并行分支网络对其进行训练:
[0032](4a)使用(2c)中的共用主干网络N层特征图对目标数量进行回归预测,得到预测目标数n
p
,再根据训练集中已有的真实目标数n

p
和(3a)中定义的函数计算目标数量损失值L
num

[0033](4b)将(2e)中得到的定位特征金字塔和分类特征金字塔分别输入到(2f)中构建的定位任务头和分类任务头中进行目标定位和分类,得到定位和分类的预测结果,并根据(3b)中定义的函数计算每张图像的动态难度权重d
p
和动态类别权重ω
i
,以优化任务特征网络中的特征学习;
[0034](4c)由现有回归损失函数和分类损失函数分别计算回归损失值L
reg
和分类损失值L
cls
,根据L
cls
、L
reg
、目标数量损失值L
num
和现有总损失计算函数,计算得到总损失值L,通过反向传播逐代更新定位分类任务并行分支网络中的权值直到达到设定的训练代数,得到初步训练好的定位分类任务并行分支网络;
[0035](4d)将图像集中的验证集输入初步训练好的定位分类任务并行分支网络中,调整其与现有目标检测网络定义相同的超本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种密集场景下的多人姿态检测方法,其特征在于,包括如下步骤:(1)选取公开的密集场景下多人姿态的图像集,将其按8:1:1的比例分为训练集、验证集和测试集;(2)构建定位分类任务并行分支网络:(2a)构建与现有目标检测网络YOLOv5主干网络相同的共用主干网络;(2b)构建两个由两个传统卷积层、两个扩张卷积层和一个传统卷积层依次级联的浅CNN模块;(2c)构建两个由反卷积层和上采样层组成的特征融合模块,分别为第一特征融合模块和第二特征模块,用于进一步提取两个浅CNN模块和共用主干网络的特征,得到提取特征后的浅CNN模块N层特征图和共用主干网络N层特征图,N≥3;(2d)将提取特征后的两个浅CNN模块N层特征图分别与共用主干网络N层特征图进行逐层匹配,并对每层逐元素进行相乘得到定位和分类的N层特征图;(2e)在现有的任务特征网络上新增一个与其结构相同的任务特征网络,以构成并行的定位分支和分类分支,并将定位和分类的N层特征图分别输入到对应分支中生成定位特征金字塔和分类特征金字塔;(2f)构建与现有目标检测网络YOLOv5定位任务头和分类任务头相同的定位任务头和分类任务头;(2g)将共用主干网络、(2b)中一个浅CNN模块、第一特征融合模块、定位分支、定位任务头依次级联,将共用主干网络、(2b)中另一个浅CNN模块、第二特征融合模块、分类分支、分类任务头依次级联,构成定位分类任务并行分支网络;(3)定义定位分类任务并行分支网络中需要用到的函数:(3a)定义目标数量损失函数L
num
为:L
num
=L
MSE
(n
p
,n

p
),其中n
p
为第p张图像中预测目标数,n

p
为第p张图像中真实目标数,L
MSE
(n
p
,n

p
)表示计算n
p
和n

p
两者之间的均方误差;(3b)定义动态类别权重函数ω
i
和动态难度权重函数d
p
为:其中,c
i
表示第p张图像中第i类的预测数量;表示t张图像的平均目标预测数量;(4)根据选择的公开图像集设定相应的训练代数,将训练集中的图像输入定位分类任务并行分支网络对其进行训练:(4a)使用(2c)中的共用主干网络N层特征图对目标数量进行回归预测,得到预测目标数n
p
,再根据训练集中已有的真实目标数n

p
和(3a)中定义的函数计算目标数量损失值L
num
;(4b)将(2e)中得到的定位特征金字塔和分类特征金字塔分别输入到(2f)中构建的定位任务头和分类任务头中进行目标定位和分类,得到定位和分类的预测结果,并根据(4b)中定义的函数计算每张图像的动态难度权重d
p
和动态类别权重ω
i
,以优化任务特征网络中的特征学习;
(4c)由现有回归损失函数和分类损失函数分别计算回归损失值L
reg
和分类损失值L
cls
,根据L
cls
、L
reg
、目标数量损失值L
num
和现有总损失计算函数,计算得到总损失值L,通过反向传播逐代更新定位分类任务并行分支网络中的权值直到达到设定的训练代数,得到初步训练好的定位分类任务并行分支网络;(4d)将图像集中的验证集输入初步训练好的定位分类任务并行分支网络中,调整其与现有目标检测网络定义相同的超参数后,并再次进行训练,(4e)重复(4d)直到使其达到最佳检测效果,得到最终训练好的定位分类任务并行分支网络;(5)将测试集输入到最终训练好的定位分类任务并行分支网络中,得到在该数据集上的检测结果。2.根据权利要求1所述的方法,其特征在于,步骤(2b)所建立的浅CNN模块中;各层参数设置如下:所述前两个传统卷积层,其卷积核大小分别为3
×
3和1
×
1,步长均为1;所述两个扩张卷积层,其扩张率分别为3和2、步长均为1;所述最后一个传统卷积层,其步长为1、卷积核大小为1
×
1。3.根据权利要求1所述的方法,其特征在于,步骤(2c)所建立的特征融合模块中;各层参数设置如下:所述反卷积层,其卷积核大小为3
×
3、步长为1;所述上采样层的上采样倍数为2。4.根据权利要求1所述的方法,其特征在于,步骤(2e)中将定位N层特征图输入到定位分支中生成定位特征金字塔,实现如下:(2e1)设定N=3,则输入的定位N层特征图由三层特征图组成;(2e2)生成定位特征金字塔:设三层定位特征图分别为小尺寸特征图S1、中尺寸特征图S2、大尺寸特征图S3,将S1输入到倍数为2的上采样层,将经过上采样层后的特征图再输入到步长为1、卷积核大小为1
×
1的第一传统卷积层,得到第一特征图S1→2,再将其与中尺寸特征图S2相加得到第二特征图S
′2;将S2输入到倍数为2的上采样层,将经过上采样层后的特征图再输入到步长为1、卷积核大小为1
×
1的第二传统卷积层,得到第三特征图S2→3,再将其与大尺寸特征图S3相加得到金字塔大尺存特征图S
′3;将S
′3输入到倍数为2的下采样层,将经过下采样层后的特征图再输入到步长为1、卷积核大小为1
×
1的第三传统卷积层,得到第四特征图S
′3→2,再将其与第二特征图S
′2相加得到金字塔中尺存特征图...

【专利技术属性】
技术研发人员:刘刚党敏李浩徐启杰相若彤张子怡
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1