System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种用于人人交互场景的三维人体反应生成方法与系统技术方案_技高网

一种用于人人交互场景的三维人体反应生成方法与系统技术方案

技术编号:41133271 阅读:2 留言:0更新日期:2024-04-30 18:03
本发明专利技术公开了一种用于人人交互场景的三维人体反应生成方法与系统,涉及三维成像技术领域,主要包括步骤:通过扩散模型将动作反应方的人体反应,进行随机采样时间步长下的正向过程加噪;将条件输入和加噪后的人体反应分别由全连接层处理并拼接后获得最终表征;将随机采样时间步长和条件输入所对应的动作类别由全连接层处理并拼接,拼接结果与最终表征合并获得合并结果;将合并结果输入逆过程模型,在基于距离的双人动作表征损失函数约束,以及扩散模型损失函数对扩散模型的约束下进行训练;动作反应方人体反应的实时生成。本发明专利技术通过构建扩散模型和自注意力机制解码器结构的人体反应生成网络,获取人体实时反应结果,优化了可视化效果。

【技术实现步骤摘要】

本专利技术涉及三维成像,具体涉及一种用于人人交互场景的三维人体反应生成方法与系统


技术介绍

1、现有以人为中心的动作生成模型主要针对面向人与环境、物体的交互生成,即给定静态的环境/物体,生成出三维人与之真实合理的交互动作,要求充分适应和理解环境与物体的语义性和功能性。另一方面,人体动作生成技术主要针对给定动作描述生成一段连续真实的单人动作序列或多人交互动作序列。这些模型在游戏、增强现实/虚拟现实、人机交互、具身智能等各个领域发挥出重要作用。

2、然而,我们注意到,在一个片段只包含一个简单交互动作的情况下,人人交互片段通常表现为一个人发起动作,另一个人做出反应,现有的以人为中心的生成模型往往忽略了这种不对称性。首先,人和场景/物体交互生成的工作只考虑到静态的场景或物体,而动态的人人交互往往更加复杂,且对比来说,人人交互对于实时生成的要求更高;另一方面,现有的多人交互生成模型往往把发起动作的人和做出反应的人等价对待,忽略了交互的不对称性。


技术实现思路

1、为了在人人交互动作生成模型运行过程中更多的考虑到交互不对称性等问题,本专利技术提出了一种用于人人交互场景的三维人体反应生成方法,包括步骤:

2、s1:获取交互目标双方的交互数据,并以动作发起方的动作为条件输入;

3、s2:通过扩散模型将动作反应方的人体反应,进行随机采样时间步长下的正向过程加噪;

4、s3:将条件输入和加噪后的人体反应分别由全连接层处理并拼接后获得最终表征;

<p>5、s4:将随机采样时间步长和条件输入所对应的动作类别由全连接层处理并拼接,拼接结果与最终表征合并获得合并结果;

6、s5:基于自注意力解码器结构进行扩散模型的逆过程模型构建;

7、s6:将合并结果输入逆过程模型,在基于距离的双人动作表征损失函数约束,以及扩散模型损失函数对扩散模型的约束下进行训练;

8、s7:通过训练后的模型基于动作发起方的动作进行动作反应方人体反应的实时生成。

9、进一步地,所述s1步骤中,交互数据是通过采集交互双方的动作序列视频数据集,并输入由人体姿态估计算法提取的smpl-x人体参数模型进行获取。

10、进一步地,所述s3步骤具体包括如下步骤:

11、s31:将条件输入和加噪后的人体反应同时由第一全连接层分别进行处理获得各自的隐表征,并在特征维度上进行拼接;

12、s32:通过第二全连接层将拼接后的隐表征降维至目标维度得到最终表征。

13、进一步地,所述s5步骤中,自注意解码器采用带方向的自注意力掩码机制。

14、进一步地,所述s6步骤中,双人动作表征损失函数表达式为:

15、

16、

17、式中,为损失函数,fk( )为前向几何学函数,用于将旋转角坐标转换为骨骼点坐标,rm( )函数表示将旋转位姿转换为旋转矩阵表示,θ、q、γ分别为人体位姿、人体朝向和人体平移量,x为人体反应,y为动作发起方的动作,x0为人体反应真实值,为人体反应经过网络生成的去噪后的结果。

18、本专利技术还提出了一种用于人人交互场景的三维人体反应生成系统,包括:

19、数据提取模块,用于获取交互目标双方的交互数据,提取其中动作发起方的动作为条件输入,并提取动作反应方的人体反应;

20、数据加噪模块,用于通过扩散模型将动作反应方的人体反应,进行随机采样时间步长下的正向过程加噪;

21、数据拼接模块,用于将条件输入和加噪后的人体反应分别由全连接层处理并拼接后获得最终表征,并将随机采样时间步长和条件输入所对应的动作类别由全连接层处理并拼接,拼接结果与最终表征合并获得合并结果;

22、模型构建模块,用于基于自注意力解码器结构进行扩散模型的逆过程模型构建;

23、反应生成模块,用于通过训练后的模型基于动作发起方的动作进行动作反应方人体反应的实时生成。

24、进一步地,所述交互数据是通过采集交互双方的动作序列视频数据集,并输入由人体姿态估计算法提取的smpl-x人体参数模型进行获取。

25、进一步地,所述数据拼接模块中,最终表征的获取通过如下单元获取:

26、第一拼接单元,用于将条件输入和加噪后的人体反应同时由第一全连接层分别进行处理获得各自的隐表征,并在特征维度上进行拼接;

27、降维处理单元,用于通过第二全连接层将拼接后的隐表征降维至目标维度得到最终表征。

28、进一步地,自注意解码器采用带方向的自注意力掩码机制。

29、进一步地,双人动作表征损失函数表达式为:

30、

31、

32、式中,为损失函数,fk( )为前向几何学函数,用于将旋转角坐标转换为骨骼点坐标,rm( )函数表示将旋转位姿转换为旋转矩阵表示,θ、q、γ分别为人体位姿、人体朝向和人体平移量,x为人体反应,y为动作发起方的动作,x0为人体反应真实值,为人体反应经过网络生成的去噪后的结果。

33、与现有技术相比,本专利技术至少含有以下有益效果:

34、本专利技术所述的一种用于人人交互场景的三维人体反应生成方法与系统,通过构建三维人体反应生成基准,完整定义了数据格式、问题形式、算法模型设计。通过构建扩散模型和自注意力机制解码器结构的人体反应生成网络,能够得到真实合理的人体实时反应结果,达到最好的量化和可视化效果。

本文档来自技高网
...

【技术保护点】

1.一种用于人人交互场景的三维人体反应生成方法,其特征在于,包括步骤:

2.如权利要求1所述的一种用于人人交互场景的三维人体反应生成方法,其特征在于,所述S1步骤中,交互数据是通过采集交互双方的动作序列视频数据集,并输入由人体姿态估计算法提取的SMPL-X人体参数模型进行获取。

3.如权利要求1所述的一种用于人人交互场景的三维人体反应生成方法,其特征在于,所述S3步骤具体包括如下步骤:

4.如权利要求1所述的一种用于人人交互场景的三维人体反应生成方法,其特征在于,所述S5步骤中,自注意解码器采用带方向的自注意力掩码机制。

5.如权利要求1所述的一种用于人人交互场景的三维人体反应生成方法,其特征在于,所述S6步骤中,双人动作表征损失函数表达式为:

6.一种用于人人交互场景的三维人体反应生成系统,其特征在于,包括:

7.如权利要求6所述的一种用于人人交互场景的三维人体反应生成系统,其特征在于,所述交互数据是通过采集交互双方的动作序列视频数据集,并输入由人体姿态估计算法提取的SMPL-X人体参数模型进行获取。>

8.如权利要求6所述的一种用于人人交互场景的三维人体反应生成系统,其特征在于,所述数据拼接模块中,最终表征的获取通过如下单元获取:

9.如权利要求6所述的一种用于人人交互场景的三维人体反应生成系统,其特征在于,自注意解码器采用带方向的自注意力掩码机制。

10.如权利要求6所述的一种用于人人交互场景的三维人体反应生成系统,其特征在于,双人动作表征损失函数表达式为:

...

【技术特征摘要】

1.一种用于人人交互场景的三维人体反应生成方法,其特征在于,包括步骤:

2.如权利要求1所述的一种用于人人交互场景的三维人体反应生成方法,其特征在于,所述s1步骤中,交互数据是通过采集交互双方的动作序列视频数据集,并输入由人体姿态估计算法提取的smpl-x人体参数模型进行获取。

3.如权利要求1所述的一种用于人人交互场景的三维人体反应生成方法,其特征在于,所述s3步骤具体包括如下步骤:

4.如权利要求1所述的一种用于人人交互场景的三维人体反应生成方法,其特征在于,所述s5步骤中,自注意解码器采用带方向的自注意力掩码机制。

5.如权利要求1所述的一种用于人人交互场景的三维人体反应生成方法,其特征在于,所述s6步骤中,双人动作表征损失函数表达式...

【专利技术属性】
技术研发人员:金鑫徐良曾文军晏轶超朱文瀚杨小康
申请(专利权)人:宁波东方理工大学暂名
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1