System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种交互式3D人体姿态估计方法技术_技高网
当前位置: 首页 > 专利查询>浙江大学专利>正文

一种交互式3D人体姿态估计方法技术

技术编号:41773135 阅读:21 留言:0更新日期:2024-06-21 21:48
本发明专利技术公开了一种交互式3D人体姿态估计方法,是一种交互式人工智能应用,用于大幅降低对于3D人体姿态任务的标注人力和设备成本。主要包含如下步骤:使用已有的2D人体姿态预测网络获取人体关键点的2D坐标;由高斯噪声采样生成噪声序列,并与2D坐标一起作为输入。利用3D人体姿态预测网络的扩散过程初步预测出人体关键点的3D坐标,人工修正少量关键点的3D坐标,将修正后的坐标再次输入到3D人体姿态预测网络中进行推理,最终预测出人体关键点的3D坐标。本发明专利技术将人工干预融合到了3D人体姿态预测网络中,使用少量的人工干预大幅度提高模型的人体姿态估计准确度,可以为未知数据的标注节省大量的人力和设备成本,为3D人体姿态估计的发展做出一定贡献。

【技术实现步骤摘要】

本专利技术属于计算机视觉领域,尤其涉及一种交互式3d人体姿态估计方法。


技术介绍

1、3d人体姿态估计,旨在从图像或者视频预测人体关键点的3d坐标,是一种重要的计算机视觉任务,有较大的应用前景,如增强现实、肢体语言解读、人体交互等等,在今年获得了较多的学术界关注。总体来说,3d人体姿态估计有两条基本路线:一是直接利用神经网络从图像或视频预测3d人体关键点坐标、二是先利用2d人体姿态预测器预测2d坐标,再利用神经网络从2d坐标预测3d坐标。由于第二种方法有着更小的预测误差,目前学术界和工业界的研究偏向第二类方法。

2、尽管当前出现了众多的3d人体姿态数据集,但由于域差距,在一个数据集上训练的模型往往在其他数据集上表现较差。此外,在实际应用场景中,往往需要根据实际业务需求重新采集数据并进行标注,并使用该数据进行训练。然而,3d人体姿态数据集常常是一段视频,视频的标注需要大量的人力和时间成本。


技术实现思路

1、本专利技术的目的在于解决现有技术中存在的问题,并提供一种交互式3d人体姿态估计方法,3d人体姿态预测网络在初步预测3d姿态后,人工对少量不准确的点进行人工修正,然后将修正后的结果继续输入3d人体姿态预测网络,即可根据少量正确的点对预测结果进行进一步的修正和重预测。这一过程需要3d人体姿态预测网络学习到少量的正确3d姿态关节点对于其他点的联系和影响。因此,本专利技术旨在减少3d人体姿态的标注成本,使用少量的人工成本达到更好的预测结果。

2、为了实现上述专利技术目的,本专利技术具体采用如下技术方案:

3、一种交互式3d人体姿态估计方法,包括以下步骤:

4、s1.获取带有人体对象的rgb图像,将rgb图像送入预训练的2d人体姿态预测网络中,得到人体关键点的二维坐标位置;

5、s2.由高斯噪声采样生成噪声序列,将人体关键点的二维坐标位置和噪声序列在最后一个维度上进行拼接,得到人体姿态输入序列;

6、s3.在预设的最大时间步内以固定间隔生成与预设的扩散次数数量相同的随机时间步;

7、s4.针对随机时间步进行扩散,在每个随机时间步的扩散过程中,将人体姿态输入序列输入到经过训练的3d人体姿态预测网络中,得到三维人体姿态的初步预测值;交互界面对初步预测值进行可视化,并由交互界面获取用户输入的误差点修正信息,利用误差点修正信息对三维人体姿态的初步预测值进行修正,得到修正后的初步预测值,将人体关键点的二维坐标位置和修正后的初步预测值在最后一个维度上进行拼接,得到修正后的人体姿态输入序列;将修正后的人体姿态输入序列重新输入到经过训练的3d人体姿态预测网络中,得到三维人体姿态的最终预测值;

8、s5.当所有随机时间步遍历完毕后,将最后一个随机时间步输出的三维人体姿态最终预测值作为最终结果,完成交互式3d人体姿态估计;

9、所述3d人体姿态预测网络由线性层、混合时空编码器以及3d预测头依次级联而成,并采用联合训练的方式进行训练,训练过程的每个迭代轮次包含两个阶段,每个阶段利用各自的损失函数更新3d人体姿态预测网络参数,当第一阶段完成后,对第一阶段的预测结果进行修正,将修正后的第一阶段预测结果作为第二阶段的输入,得到第二阶段的预测结果。

10、在上述方案基础上,各步骤可以采用如下优选的具体方式实现。

11、作为优选,所述3d人体姿态预测网络的具体训练过程为:

12、在每个迭代轮次的第一阶段中,先在所述最大时间步t内通过均匀采样的方式,随机得到一个训练过程的时间步t,将训练集中的rgb图像送入预训练的2d人体姿态预测网络中,得到人体关键点的二维坐标位置,再利用扩散模型加噪方法对人体关键点二维坐标位置对应的真实三维人体姿态数据进行加噪,得到带噪的三维人体姿态数据,将人体关键点的二维坐标位置和带噪的三维人体姿态数据在最后一个维度上进行拼接,得到输入向量,将输入向量输入到3d人体姿态预测网络中的线性层进行升维,得到升维后的向量,训练过程的时间步通过所述线性层,得到时间步嵌入,然后将时间步嵌入、上一个迭代轮次中学习好的位置嵌入以及升维后的向量相加,得到初始特征序列,将初始特征序列输入到所述混合时空编码器中,得到特征序列编码结果,将特征序列编码结果输入到所述3d预测头中,得到时间步t的三维人体姿态的初步预测值;

13、在每个迭代轮次的第二阶段中,从三维人体姿态的初步预测值中随机选择预设数量的初步预测点,将所述初步预测点替换成对应位置的真实三维人体姿态数据,得到部分修正的初步预测结果,将人体关键点的二维坐标位置和部分修正的初步预测结果在最后一个维度上进行拼接,得到新的输入向量,将新的输入向量,将新的输入向量输入到第一阶段更新后的线性层进行升维,得到新的升维后向量,训练过程的时间步通过第一阶段更新后的线性层,得到新的时间步嵌入,然后将新的时间步嵌入和第一阶段中学习好的位置嵌入加到新的升维后向量上,得到新的初始特征序列,将新的初始特征序列通过第一阶段更新后的混合时空编码器,得到新的特征序列编码结果,将新的特征序列编码结果通过第一阶段更新后的3d预测头中,得到时间步t的三维人体姿态的最终预测值;

14、计算三维人体姿态的初步预测值和真实三维人体姿态数据之间的均方误差并作为第一mpjpe损失,计算三维人体姿态的最终预测值和真实三维人体姿态数据之间的均方误差并作为第二mpjpe损失,基于最小化所述第一mpjpe损失单独更新第一阶段的3d人体姿态预测网络参数,基于最小化所述第二mpjpe损失单独更新第二阶段的3d人体姿态预测网络参数;不断迭代训练,直到达到预设的迭代轮次,3d人体姿态预测网络收敛,得到训练好的3d人体姿态预测网络。

15、作为优选,所述扩散模型加噪方法的计算过程为:

16、

17、其中,

18、

19、αs:=1-βs

20、式中,:=表示定义为,q(yt|y0)表示在真实三维人体姿态数据y0条件下得到带噪的三维人体姿态数据yt的条件概率分布,y0为真实三维人体姿态数据,yt为带噪的三维人体姿态数据,βs为时间步s的余弦噪声方差表,αs,均表示中间变量,s表示当前时间步,∏表示连乘,∈~n(0,1)表示服从标准正态分布的噪声。

21、作为优选,步骤s1中,所述2d人体姿态预测网络采用cpn模型。

22、作为优选,所述混合时空编码器由若干个空间-时间编码块依次级联而成,每个空间-时间编码块由一个空间transformer和一个时序transformer依次级联而成。

23、作为优选,步骤s3中,第k∈[1,k]次扩散生成的随机时间步函数形式为:

24、

25、其中,t表示最大时间步,t/k表示固定间隔,k表示预设的扩散次数。

26、作为优选,步骤s5中,得到所述最终结果前,对最后一个随机时间步输出的三维人体姿态最终预测值进行数据增强。

27、作为优本文档来自技高网...

【技术保护点】

1.一种交互式3D人体姿态估计方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种交互式3D人体姿态估计方法,其特征在于,所述3D人体姿态预测网络的具体训练过程为:

3.如权利要求2所述的一种交互式3D人体姿态估计方法,其特征在于,所述扩散模型加噪方法的计算过程为:

4.如权利要求1所述的一种交互式3D人体姿态估计方法,其特征在于,步骤S1中,所述2D人体姿态预测网络采用CPN模型。

5.如权利要求1所述的一种交互式3D人体姿态估计方法,其特征在于,所述混合时空编码器由若干个空间-时间编码块依次级联而成,每个空间-时间编码块由一个空间Transformer和一个时序Transformer依次级联而成。

6.如权利要求1所述的一种交互式3D人体姿态估计方法,其特征在于,步骤S3中,第k∈[1,K]次扩散生成的随机时间步函数形式为:

7.如权利要求1所述的一种交互式3D人体姿态估计方法,其特征在于,步骤S5中,得到所述最终结果前,对最后一个随机时间步输出的三维人体姿态最终预测值进行数据增强。

8.如权利要求2所述的一种交互式3D人体姿态估计方法,其特征在于,步骤S1中,所述人体关键点总共17个,包括:臀部、右臀部、右膝盖、右脚踝、左臀部、左膝盖、左脚踝、脊柱、胸部、颈部、头部、左肩、左手肘、左手腕、右肩、右手肘和右手腕。

9.如权利要求8所述的一种交互式3D人体姿态估计方法,其特征在于,所述第一MPJPE损失LMPJPE的函数形式为:

10.如权利要求2所述的一种交互式3D人体姿态估计方法,其特征在于,采用AdamW优化器对3D人体姿态预测网络参数进行优化。

...

【技术特征摘要】

1.一种交互式3d人体姿态估计方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种交互式3d人体姿态估计方法,其特征在于,所述3d人体姿态预测网络的具体训练过程为:

3.如权利要求2所述的一种交互式3d人体姿态估计方法,其特征在于,所述扩散模型加噪方法的计算过程为:

4.如权利要求1所述的一种交互式3d人体姿态估计方法,其特征在于,步骤s1中,所述2d人体姿态预测网络采用cpn模型。

5.如权利要求1所述的一种交互式3d人体姿态估计方法,其特征在于,所述混合时空编码器由若干个空间-时间编码块依次级联而成,每个空间-时间编码块由一个空间transformer和一个时序transformer依次级联而成。

6.如权利要求1所述的一种交互式3d人体姿态估计方法,其特征在于,步...

【专利技术属性】
技术研发人员:李玺周松燃
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1