面向遮挡的人体姿态估计方法、装置及电子设备制造方法及图纸

技术编号：40605383 阅读：3 留言：0更新日期：2024-03-12 22:11

本发明专利技术提供一种面向遮挡的人体姿态估计方法、装置及电子设备，其中所述方法包括：利用自顶向下法对目标人体的图像进行特征提取，获取第一特征，并利用空间注意力网络，将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量；利用多头注意力网络，将所述不同关键点的特征向量进行交互，以形成所述不同关键点的特征向量相互间的关联关系，获取具有关联关系的特征向量；基于所述具有关联关系的特征向量，确定所述目标人体的各所述不同关键点分别对应的坐标，实现人体姿态估计。本发明专利技术通过在基准网络中增加空间注意力机制和多头注意力机制的方法来提高在遮挡情况下对人体姿态估计的预测精度，能有效地提高遮挡下人体姿态估计的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种面向遮挡的人体姿态估计方法、装置及电子设备。

技术介绍

1、随着舞台灯的不断发展，其逐渐能够在舞台中呈现出具有强烈视觉冲击感的灯光效果，如通过灯光跟踪，使灯光跟随表演者的不同表演内容投射出相应的奇幻场景，从而使观众犹如身临其境。而灯光跟踪的关键，是进行准确的人体姿态估计(human poseestimation，hpe)，特别是存在遮挡下的人体姿态估计。

2、目前，在进行遮挡下的人体姿态估计时，主要是采用通过增大人体关键点的感受野进行检测或者利用级联金字塔网络模型等对人体不同复杂程度的关键点分别进行检测等基于热图的估计法，来解决遮挡，从而实现人体姿态估计。但是，这类解决方法的模型通常复杂度较高，且鲁棒性不是很好。

技术实现思路

1、本专利技术提供一种面向遮挡的人体姿态估计方法、装置及电子设备，用以解决现有技术鲁棒性差的缺陷，实现有效提高系统鲁棒性的目标。

2、本专利技术提供一种面向遮挡的人体姿态估计方法，包括：

3、利用自顶向下法，对目标人体的图像进行所述目标人体的特征提取，获取第一特征，并利用空间注意力网络，将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量；

4、利用多头注意力网络，将所述不同关键点的特征向量进行交互，以形成所述不同关键点的特征向量相互间的关联关系，获取具有关联关系的特征向量；

5、基于所述具有关联关系的特征向量，确定所述目标人体的各所述不同关键点分别对应的坐标，实现人体姿态估计。

6、根据本专利技术提供的一种面向遮挡的人体姿态估计方法，所述空间注意力网络包括第一卷积层、第二卷积层和归一化处理，所述利用空间注意力网络，将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量，包括：

7、通过所述第一卷积层，拓展用于处理所述第一特征的通道数，并通过所述第二卷积层，将拓展后的通道数进行降维，以得到降维后各通道下的降维特征，并

8、将各通道下的所述降维特征进行归一化处理；

9、将归一化处理后的结果与所述第一卷积层的拓展结果相点乘，获取各所述不同关键点分别对应的所述特征向量。

10、根据本专利技术提供的一种面向遮挡的人体姿态估计方法，具体通过归一化指数函数softmax对所述降维特征进行归一化处理；

11、相应地，所述获取各所述不同关键点分别对应的所述特征向量，包括：

12、利用如下公式，计算获取各所述不同关键点分别对应的所述特征向量：

13、

14、式中，token表示所述特征向量，a表示所述第一特征经过所述第一卷积层拓展后的结果，表示点乘，softmax()表示归一化指数函数，conv()表示进行所述第二卷积层的卷积运算。

15、根据本专利技术提供的一种面向遮挡的人体姿态估计方法，所述第一卷积层为1×1卷积层，所述第二卷积层为3×3卷积层。

16、根据本专利技术提供的一种面向遮挡的人体姿态估计方法，所述获取具有关联关系的特征向量，包括：

17、利用所述多头注意力网络中的多头注意力，获取各所述特征向量间的不同权重值，并将所述不同权重值叠加到所述特征向量上；

18、将叠加权重值后的特征向量分别通过层归一化操作和概率随机失活操作后，传递到前馈神经网络层，获取所述前馈神经网络层的输出，作为所述具有关联关系的特征向量。

19、根据本专利技术提供的一种面向遮挡的人体姿态估计方法，在所述获取所述前馈神经网络层的输出之后，还包括：

20、通过第一全连接层对所述多头注意力网络的通道进行拓展，并在将所述前馈神经网络层的输出利用拓展通道处理后，将处理的结果通过relu激活函数；

21、通过第二全连接层对拓展的通道进行降维，再次进行层归一化操作和概率随机失活操作；

22、以再次进行概率随机失活操作的输出，作为所述具有关联关系的特征向量。

23、根据本专利技术提供的一种面向遮挡的人体姿态估计方法，所述利用所述多头注意力网络中的多头注意力，获取各所述特征向量间的不同权重值，包括：

24、将所述特征向量按如下公式通过所述多头注意力：

25、multihead(q,k,v)＝concat(head1,head2,…,headh)wo；

26、式中，head i表示第i个自注意力机制头，q,k,v∈r17×256均为密集特征转换为关键点的特征向量，为第i个自注意力机制头对应关键点特征向量的权重，wo∈r256×256为多头注意力的权重，h表示把各个关键点的特征向量分成的总份数，multihead()表示多头注意力函数，concat()表示连接函数，attention()表示自注意力函数；

27、按如下公式，对headi单独做一次注意力机制：

28、

29、式中，vi＝vwiv，qi、kit和vi均表示headi内的特征向量，dk＝32，dk表示尺度标量。

30、根据本专利技术提供的一种面向遮挡的人体姿态估计方法，所述对目标人体的图像进行特征提取，获取第一特征，包括：

31、利用高分辨率网络，搭建图像特征提取模型，并在所述特征提取模型的多个阶段，分别利用3×3卷积进行下采样，利用1×1卷积进行上采样，获取所述第一特征。

32、根据本专利技术提供的一种面向遮挡的人体姿态估计方法，还包括：

33、基于所述具有关联关系的特征向量，预测所述目标人体的各所述不同关键点的遮挡可信度值，并基于所述遮挡可信度值，确定各所述不同关键点的被遮挡情况。

34、根据本专利技术提供的一种面向遮挡的人体姿态估计方法，还包括：

35、利用二分类交叉熵损失，训练用于预测所述遮挡可信度值的预测模型；

36、相应地，将所述具有关联关系的特征向量输入所述预测模型，获取各所述不同关键点的遮挡可信度值。

37、根据本专利技术提供的一种面向遮挡的人体姿态估计方法，所述利用二分类交叉熵损失，训练用于预测所述遮挡可信度值的预测模型，包括：

38、按照实际被遮挡情况，将样本数据集中样本的人体关键点标记为不可见点、遮挡点或可见点，并将标记后的数据样本集划分为第一样本子集和第二样本子集；

39、将所述第一样本子集中被标记为遮挡点和不可见点的关键点作为第一类点，并将所述第一样本子集中被标记为可见点的关键点作为第二类点；

40、根据所述第一类点和所述第二类点，按下式进行遮挡预测bceloss的二分类交叉熵损失计算：

41、lbce＝-(y×log(x)+(1-y)×log(1-x))；

42、式中，x表示预测样本经过模型预测出来的遮挡可信度值，y表示标记的遮挡信息，lbce表示遮挡预测bceloss的二分类交叉熵损失；

43、将所述第二样本子集中被标记为不可见点的关键点作为第三类本文档来自技高网...

【技术保护点】

1.一种面向遮挡的人体姿态估计方法，其特征在于，包括：

2.根据权利要求1所述的面向遮挡的人体姿态估计方法，其特征在于，所述空间注意力网络包括第一卷积层、第二卷积层和归一化处理，所述利用空间注意力网络，将所述第一特征转换为所述目标人体各不同关键点分别对应的特征向量，包括：

3.根据权利要求2所述的面向遮挡的人体姿态估计方法，其特征在于，具体通过归一化指数函数Softmax对所述降维特征进行归一化处理；

4.根据权利要求2或3所述的面向遮挡的人体姿态估计方法，其特征在于，所述第一卷积层为1×1卷积层，所述第二卷积层为3×3卷积层。

5.根据权利要求1-3中任一所述的面向遮挡的人体姿态估计方法，其特征在于，所述获取具有关联关系的特征向量，包括：

6.根据权利要求5所述的面向遮挡的人体姿态估计方法，其特征在于，在所述获取所述前馈神经网络层的输出之后，还包括：

7.根据权利要求5所述的面向遮挡的人体姿态估计方法，其特征在于，所述利用所述多头注意力网络中的多头注意力，获取各所述特征向量间的不同权重值，包括：