一种三维人体视频重建方法、装置、存储介质及电子设备制造方法及图纸

技术编号：41102072 阅读：2 留言：0更新日期：2024-04-25 13:58

本说明书公开了一种三维人体视频重建方法、装置、存储介质及电子设备。所述三维人体视频重建方法包括：获取患者的视频数据以及视频数据对应的文本数据，将视频数据和文本数据分别输入到语言图像模型的图像编码器以及文本编码器中，以视频数据对应的各图像特征表示和各文本特征表示，将各图像特征表示和各文本特征表示输入到交叉模块中，以通过交叉模块针对每个图像特征表示，根据该图像特征表示和其他每个文本特征表示之间的相关度，视频数据对应的融合特征表示，进而将融合特征表示输入到解码器，以通过解码器确定患者的模型参数，并根据模型参数构建患者的人体三维模型。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及康复医学，尤其涉及一种三维人体视频重建方法、装置、存储介质及电子设备。

技术介绍

1、在康复医学领域中，一种常用的帮助患者恢复身体功能的方法是采集患者按照预设的康复动作指示做出不同动作的视频图像数据，进而根据采集到的患者的视频图像数据，重建出患者的人体三维模型，以根据人体三维模型执行诸如：定位患者的损伤部位，预测治疗效果，以及监控康复进程等任务。

2、通常情况下，在重建患者的人体三维模型时需要将采集到的患者的视频图像数据输入到预设的卷积神经网络中以进行特征提取，从而可以通过回归器根据提取出的特征预测出人体三维模型的参数，以构建患者的人体三维模型。但是由于康复医学领域的视频图像数据通常具有较高的复杂性，使得通过卷积神经网络和回归器构建出的人体三维模型的准确性较低，进而导致后续的任务无法执行。

3、因此，如何能够提升重建出的人体三维模型的准确性，则是一个亟待解决的问题。

技术实现思路

1、本说明书提供一种三维人体视频重建方法、装置、存储介质及电子设备，以部分的解决现有技术存在的上述问题。

2、本说明书采用下述技术方案：

3、本说明书提供了一种三维人体视频重建方法，

4、所述方法应用于预先训练的重建模型，所述重建模型包括：图像编码器、文本编码器、交叉模块、解码器，所述方法包括：

5、获取患者的视频数据以及所述视频数据对应的文本数据，所述文本数据为所述视频数据对应的康复训练动作的语义标签文本；

7、将所述文本数据输入到所述文本编码器中，以通过所述文本编码器，根据每帧图像数据对应的文本数据，确定该帧图像数据对应的文本特征表示；

8、将各图像特征表示和各文本特征表示输入到所述交叉模块中，以通过所述交叉模块针对每个图像特征表示，根据该图像特征表示和其他每个文本特征表示之间的相关度，确定该图像特征表示对应的注意力权重，并根据所述注意力权重，确定该帧图像数据对应的融合特征表示；

9、将所述融合特征表示输入到所述解码器，以通过所述解码器确定所述患者的模型参数，并根据所述模型参数构建所述患者的人体三维模型，所述模型参数包括：身体关节参数、人体粗细网格参数。

10、可选地，将所述视频数据输入到所述图像编码器中，以通过所述图像编码器，针对所述视频数据包含的每帧图像数据，确定该帧图像数据对应的图像特征表示，具体包括：

11、将所述视频数据输入到所述图像编码器中，以通过所述图像编码器，针对所述视频数据包含的每帧图像数据，将该帧图像数据分割为指定大小的各图像块，并确定每个图像块对应的基础特征表示，以及，根据每个图像块在该帧图像数据中的位置信息，确定每个图像块对应的位置编码；

12、针对每个图像块，根据该图像块对应的所述基础特征表示和所述位置编码，确定该图像块的图像块特征表示，并根据该图像块和每个其他图像块之间的相关度，确定该图像块对应的融合权重；

13、根据每个图像块对应的融合权重，将各图像块的图像块特征表示进行融合，得到该帧图像数据对应的图像特征表示。

14、可选地，将所述文本数据输入到所述文本编码器中，以通过所述文本编码器，根据每帧图像数据对应的文本数据，确定该帧图像数据对应的文本特征表示，具体包括：

15、将所述文本数据输入到所述文本编码器中，以通过所述文本编码器，针对每帧图像数据对应的文本数据，确定该文本数据中包含的每个词对应的词特征表示，以及，根据每个词在该文本数据中的位置信息，确定每个词对应的位置编码；

16、针对该文本数据中包含的每个词，根据该词对应的所述词特征表示和所述位置编码，确定该词的目标词特征表示，并根据该词和每个其他词之间的相关度，确定该词对应的融合词权重；

17、根据每个词对应的融合词权重，将该文本数据中包含的每个词的目标词特征表示进行融合，得到该文本数据对应的文本特征表示。

18、可选地，所述重建模型还包括：双扩散模块，所述双扩散模块包括：上分支模块、下分支模块；

19、将各图像特征表示和各文本特征表示输入到所述交叉模块中之前，所述方法还包括：

20、针对每个图像特征表示，将该图像特征表示输入到所述上分支模块中，以使所述上分支模块对该图像特征表示进行若干次加噪，得到该图像特征表示对应的加噪后图像特征表示，并通过预设的噪声预测器，确定该图像特征表示对应的预测噪声数据，根据所述预测噪声数据对所述加噪后图像特征表示进行去噪处理，得到去噪后的图像特征表示，作为优化后图像特征表示；以及

21、针对每个文本特征表示，将该文本特征表示输入到所述下分支模块中，以使所述下分支模块对该文本特征表示进行若干次加噪，得到该文本特征表示对应的加噪后文本特征表示，并通过预设的噪声预测器，确定该文本特征表示对应的预测噪声数据，根据所述预测噪声数据对所述加噪后文本特征表示进行去噪处理，得到去噪后的文本特征表示，作为优化后文本特征表示；

22、将各图像特征表示和各文本特征表示输入到所述交叉模块中，具体包括：

23、将各优化后图像特征表示和各优化后文本特征表示输入到所述交叉模块中。

24、可选地，所述重建模型还包括：时间卷积模块；

25、将所述融合特征表示输入到所述解码器之前，所述方法还包括：

26、将各帧图像数据对应的融合特征表示输入到所述时间卷积模块中，以使所述时间卷积模块，针对每个融合特征表示，根据该融合特征表示对应的图像数据的时间信息和其他融合特征表示对应的图像数据的时间信息，确定该融合特征表示对应的时间特征表示；

27、根据所述融合特征表示和所述时间特征表示，确定优化后融合特征表示；

28、将所述融合特征表示输入到所述解码器，具体包括：

29、将所述优化后融合特征表示输入到所述解码器。

30、可选地，所述重建模型还包括：图卷积模块；

31、根据所述融合特征表示和所述时间特征表示，确定优化后融合特征表示，具体包括：

32、将所述融合特征表示输入到所述图卷积模块中，以使图卷积模块针对每帧图像数据，针对每帧图像数据，确定所述患者在该帧图像数据中对应的位姿与所述患者在其他帧图像数据中对应的位姿之间的空间位置关系特征，并根据所述空间位置关系特征，确定该帧图像数据的空间特征表示；

33、根据所述空间特征表示和所述时间特征表示，确定优化后融合特征表示。

34、可选地，训练所述重建模型，具体包括：

35、获取样本康复数据集，所述样本康复数据集中包含历史采集的患者的样本视频数据、样本文本数据；

36、将所述样本视频数据输入到所述图像编码器中，以通过所述图像编码器，针对本文档来自技高网...

【技术保护点】

1.一种三维人体视频重建方法，其特征在于，所述方法应用于预先训练的重建模型，所述重建模型包括：图像编码器、文本编码器、交叉模块、解码器，所述方法包括：

2.如权利要求1所述的方法，其特征在于，将所述视频数据输入到所述图像编码器中，以通过所述图像编码器，针对所述视频数据包含的每帧图像数据，确定该帧图像数据对应的图像特征表示，具体包括：

3.如权利要求1所述的方法，其特征在于，将所述文本数据输入到所述文本编码器中，以通过所述文本编码器，根据每帧图像数据对应的文本数据，确定该帧图像数据对应的文本特征表示，具体包括：

4.如权利要求1所述的方法，其特征在于，所述重建模型还包括：双扩散模块，所述双扩散模块包括：上分支模块、下分支模块；

5.如权利要求1所述的方法，其特征在于，所述重建模型还包括：时间卷积模块；

6.如权利要求5所述的方法，其特征在于，所述重建模型还包括：图卷积模块；

7.如权利要求1所述的方法，其特征在于，训练所述重建模型，具体包括：

8.一种三维人体视频重建装置，其特征在于，包括：

...

【技术特征摘要】

4.如权利要求1所述的方法，其特征在于，所述重建模型还包括：双扩散模块，所述双扩散模块包括：上分支模块、下...

【专利技术属性】
技术研发人员：王宏升，林峰，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人