当前位置: 首页 > 专利查询>浙江大学专利>正文

基于深度学习的多人关键点识别方法、设备及存储介质技术

技术编号:39161519 阅读:31 留言:0更新日期:2023-10-23 15:02
本发明专利技术公开了一种基于深度学习的多人关键点识别方法、设备及存储介质。该方法包括构建基于深度学习的多人关键点识别模型,构建损失函数,基于损失函数对基于深度学习的多人关键点识别模型进行参数优化,利用优化的多人关键点识别模型对待检测图像进行多人关键点识别等过程。本发明专利技术能够在保证图像中全局和局部特征在充分利用的同时保持人体、姿态和关键点三者之间更为精细的约束能力,以此实现端到端的人体姿态估计。的人体姿态估计。的人体姿态估计。

【技术实现步骤摘要】
基于深度学习的多人关键点识别方法、设备及存储介质


[0001]本专利技术涉及人体姿态估计
,具体涉及一种基于深度学习的多人关键点识别方法、设备及存储介质。

技术介绍

[0002]多人姿态估计的目的是为了精确定位图片中的全部人体目标关键点位置,以便更好地辅助计算机理解人类行为。现如今已经在人机交互、活动识别、动作捕捉、运动跟踪、行人重识别、增强现实和虚拟现实等计算机视觉任务中发挥出重要作用。
[0003]当前不乏一些优秀的人体姿态估计算法,总体框架结构可以分为单阶段和两阶段两种,其中两阶段结构可以细分为自顶而下和自底而上两种结构。自顶而下的算法首先依赖一个人体检测器从图像中检测出所有人,随后利用单人姿态估计的方法对所有人进行姿态估计。其缺点是算法运行效率随着人数增加而降低,且部分被遮挡的人无法被检测,精度不高。自底向上的算法先检测出所有人的关节点,再将关键点进行连接形成图,最后通过图优化的方法剔除错误的连接,实现多人姿态估计。自底而上算法的优点是运行时间不随人数增加而线性增加,更有利于实时多人姿态估计。但该方法涉及到后续对关键点的分本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习的多人关键点识别方法,其特征在于,包括:(1)构建基于深度学习的多人关键点识别模型,包括步骤:S1,对于输入图像,利用特征提取网络提取3个不同尺度位置的特征,然后通过1
×
1的卷积层进行通道数对齐后,对特征分别进行展平拼接,得到图像特征标记L;根据位置编码函数生成与图像特征标记L对应的位置编码特征;将图像特征标记L与对应的位置编码特征进行叠加,得到联合特征作为Transformer编码器的输入;S2,Transformer编码器为6层可变形的DETR编码器顺序级联,每层可变形的DETR编码器都包含一个多尺度可变形注意力模块和一个前馈的神经网络,联合特征经过Transformer编码器细化、合并后得到对应的编码标记特征和相应实体分数其中L为联合特征的长度,D为编码维度;S3,采用2层级联的人体目标检测解码器;按照实体分数S对编码标记特征F进行由高到低排序,选取前T个标记特征作为人体目标检测解码器的输入其中T为选取的标记特征数目,代表粗糙筛选候选框中目标人体框的数目;人体目标检测解码器输出按实体分数由高到低排列的前M个图像标记特征及其相应的位置编码特征M小于T;S4,采用2层级联的人体

姿态解码器;初始化一组可以学习的关键点位置矩阵其中K为关键点的个数,将Y
m
扩展到M维后分别与相加获得图像标记特征相加获得图像标记特征和作为人体

姿态解码器的输入;人体

姿态解码器输出M个人体目标和关键点的图像标记特征、位置编码特征以及相应的实体分数,其中表示第i个人的K+2个人体目标和关键点的位置坐标;S5,采用2层级联的人体

关键点解码器;将M个人体目标和关键点的图像标记特征、位置编码特征中按实体分数由高到低排列并选取前N个作为人体

关键点解码器的输入,输出最终的人体目标和关键点的位置序列;(2)构建损失函数,包括人体分类损失L
cls
、关键点回归损失L
oks
、人体真值框回归损失L
hum
、人体真值框L1损失L
h_reg
和关键点L1损失L
k_reg
;(3)基于损失函数对基于深度学习的多人关键点识别模型进行参数优化;(4)利用优化的多人关键点识别模型对待检测图像进行多人关键点识别。2.根据权利要求1所述的基于深度学习的多人关键点识别方法,其特征在于,步骤S1具体包括步骤:S11,通过特征提取网络Resnet

50提取输入图像的多尺度特征C3,C4,C5,其对应的步幅分别是8、16和32;H和W分别对应的输入图像I的高和宽;S12,采用空间全连接层通过1
×
1卷积将多尺度特征投影到256通道的特征图上,然后将其平展为特征标记C
′3,C
′4,C
′5:
C

i
=H/2
i
×
W/2
i
×
256其中,i为3、4或5;S13,将步骤S12得到的特征标记进行拼接,得到图像特征标记L=C
′3+C
′4+C
′5;S14,按下式计算与图像特征标记L对应的位置编码特征中的各元素中的各元素其中,L(t)表示图像特征标记L中t位置上的值,i为图像特征标记L中t位置的索引,k为π,d表示编码维度,为256;S15,按下式计算联合特征S15,按下式计算联合特征其中,表示元素级别的加法。3.根据权利要求1所述的基于深度学习的多人关键点识别方法,其特征在于,步骤S3中,按下式计算第d个人体目标检测解码器输出的位置编码特征H
d
为:H
d
=σ(σ
‑1(H
d
‑1+ΔH
d
))其中,d为1或2,ΔH
d
是第d层预测的偏移量,σ和σ
‑1分别表示Sigmoid函数和逆Sigmoid函数,H0是一个随机初始化的矩阵。4.根据权利要求1所述...

【专利技术属性】
技术研发人员:王泽聪金小刚
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1