基于激光雷达的三维人体动作捕捉方法、训练方法及系统技术方案

技术编号:39259214 阅读:26 留言:0更新日期:2023-10-30 12:10
本发明专利技术介绍了训练机器学习模型生成基于光探测和测距(LiDAR)点云的三维(3D)动作的系统和方法。在各个实施例中,计算系统可以对代表场景中对象的机器学习模型进行编码。所述计算系统可以使用数据集训练所述机器学习模型,所述数据集包括单目LiDAR传感器捕捉到的同步LiDAR点云以及从IMU设备获得的地面实况三维运动。机器学习模型可以基于单目LiDAR传感器捕捉到的多个点云帧的输入生成对象的三维动作。作。作。

【技术实现步骤摘要】
【国外来华专利技术】基于激光雷达的三维人体动作捕捉方法、训练方法及系统
[0001]相关专利申请
[0002]本申请是2022年2月25日递交的第PCT/CN2022/078083号国际专利申请的延续申请案。上述申请通过本专利技术的整体引用,成为本专利技术的一部分。


[0003]本专利技术一般涉及捕捉动作。更具体地,本专利技术涉及远距离三维人体动作捕捉系统和方法。

技术介绍

[0004]近几年来,深度神经网络在根据图像或视频推断三维人体姿势方面取得了显著成果,深度神经网络的研究重点与设计数据集紧密相关,可以使用数据集对深度神经网络进行训练。然而,这些数据集一般不包括远距离或长距离下使用光探测和测距(LiDAR)传感器捕捉的人体动作、IMU系统获取的地面实况人体动作以及同步彩色图像。因此,需要一种涵盖深度信息和准确三维姿势地面实况信息的训练数据集。考虑到点云中存在的时空关系以及时间顺序,通常采用基于学习的方法来处理点云。作为广泛使用的基于标记的方案的替代方案,无标记动作捕捉技术可以减少基于标记的解决方案对身体佩戴式标记的需求。

技术实现思路

[0005]本专利技术介绍了训练机器学习模型生成基于光探测和测距(LiDAR)点云的三维(3D)动作的系统和方法。在各个实施例中,计算系统可以对代表场景中对象的机器学习模型进行编码。所述计算系统可以使用数据集训练机器学习模型,所述数据集包括单目LiDAR传感器捕捉到的同步LiDAR点云以及从IMU设备获得的地面实况三维运动。机器学习模型可以基于单目LiDAR传感器捕捉到的多个点云帧的输入生成对象的三维动作。
[0006]在一些实施例中,对象可以是人体。
[0007]在一些实施例中,所述同步LiDAR点云可包括单目LiDAR传感器捕捉到的多个点云帧,所述单目LiDAR传感器与人体相隔一段距离,所述多个点云帧的每个点可包括时间戳和强度值。所述特定距离的范围可在至少10

50米之间。
[0008]在一些实施例中,所述地面实况三维动作可与人体相关,人体每个地面实况三维动作可包括时间戳、空间坐标以及人体多个关节的旋转。所述地面实况三维动作可进一步包括人体的三维姿势。
[0009]在一些实施例中,所述数据集可进一步包括人体同步图像。
[0010]在一些实施例中,所述数据集可包括人体同步图像的标签。每个标签可包括一个二维围框,围绕同步图像中描述的人体。
[0011]在一些实施例中,所述计算系统可以使用数据集中的人体同步图像,训练第二机器学习模型。经过训练的第二机器学习模型可以输出人体的第二三维动作。基于人体第二三维动作,可以评价人体三维动作。
[0012]在一些实施例中,其中,所述机器学习模型可包括一个时间编码器模块,用于从每个点云帧提取全局描述符,生成全局描述符的多个隐藏变量,并预测多个关节位置。在一些实施例中,所述时间编码器模块可包括一个PointNet++网络、一个双向GRU模型和一个MLP编码器。所述PointNet++网络可提取全局描述符,所述双向GRU模型可生成所述多个隐藏变量,所述MLP编码器可预测所述多个关节位置。
[0013]在一些实施例中,所述机器学习模型可进一步包括一个动作学解算器模块,用于将全局特征与每个关节连接来生成完整的关节特征,并用于输出完整的关节特征来计算所述多个关节旋转。在一些实施例中,所述动作学解算器模块可包括一个ST

GCN模块。所述ST

GCN模块可通过每个关节学习已连接的全局特征。
[0014]在一些实施例中,所述机器学习模型可进一步包括一个关节优化器模块,用于优化所述多个关节的旋转。
[0015]在一些实施例中,所述关节优化器模块可包括一个SMPL模块。所述SMPL模块可优化所述多个关节的旋转。
[0016]本专利技术介绍了基于光探测和测距(LiDAR)点云的三维(3D)动作的生成方法。在各个实施例中,多个点云帧可以输入到机器学习模型中。每个点云帧可包括单目LiDAR传感器捕捉到的多个点。所述机器学习模型可包括一个时间编码器模块,所述时间编码器模块包括一个特征学习网络、一个双向GRU和一个MLP编码器。所述特征学习网络可提取每个点云帧的全局描述符。全局描述符可馈送到所述双向GRU中,以生成多个隐藏变量。隐藏变量一般是两个或多个点云帧之间时间信息的融合。隐藏变量可输入到所述MLP解码器,以预测对象的多个关节的位置和旋转。经过训练的机器学习模型可以基于所述多个关节的预测位置和旋转,输出对象的三维动作。
[0017]在一些实施例中,对象可以是人体。
[0018]在一些实施例中,可使用数据集训练机器学习模型,所述数据集包括单目LiDAR传感器捕捉到的同步LiDAR点云以及从IMU设备获得的地面实况三维动作。
[0019]在一些实施例中,所述同步LiDAR点云可包括单目LiDAR传感器捕捉到的多个点云帧,所述单目LiDAR传感器与人体相隔一定距离。所述多个点云帧的每个点可包括时间戳和强度值。所述特定距离的范围可在至少10

50米之间。
[0020]在一些实施例中,所述特征学习网络可以是PointNet++网络。
[0021]在一些实施例中,所述特征学习网络可以是Point 4D Transformer。
[0022]在一些实施例中,所述双向GRU可包括一个隐藏层,用于输出隐藏变量。
[0023]在一些实施例中,通过最大程度地减少损失,使用所述时间编码器估计所述多个关节的位置,用公式表示为:
[0024][0025]式中为第t帧的预测关节位置,为第t帧的地面实况关节位置。
[0026]在一些实施例中,所述机器学习模型可进一步包括一个动作学解算器模块。在一些实施例中,所述动作学解算器可包括一个ST

GCN模块。所述ST

GCN模型可以学习全局描述符与每个关节的连接,以生成关节特征。可以输出关节特征,以计算所述多个关节的旋
转。
[0027]在一些实施例中,所述机器学习模型可进一步包括一个关节优化器模块。在一些实施例中,所述关节优化器可包括一个SMPL模块。所述多个关节的旋转可输入到所述SMPL模块中,以获得经过优化的关节参数,所述多个关节旋转根据这些参数进行优化。
[0028]在一些实施例中,通过所述时间编码器模块、动作学解算器模块和关节优化器模块可以估计所述多个关节的旋转。
[0029]在考虑以下说明和所附权利要求并参考附图之后,本专利技术中公开的设备、系统、方法和非暂时性计算机可读介质的这些和其他特征,以及结构相关构件和零部件组合的操作方法和功能以及制造经济性将变得更加明显,所有附图构成本说明书的一部分,其中,相似的附图标记表示各个附图中的对应部分。然而,可以明确的是,附图仅供举例说明和描述,而不作为对本专利技术各项限制的定义。
附图说明
[0030]在所附的权利要求书中特别阐述了本技术各个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种基于激光雷达的三维人体动作捕捉模型的训练方法,所述方法包括以下步骤:计算系统对代表场景中对象的机器学习模型进行编码;计算系统使用数据集训练所述机器学习模型,所述数据集包括单目LiDAR传感器捕捉到的同步LiDAR点云以及从IMU设备获得的地面实况三维动作;其中,所述机器学习模型可以基于单目LiDAR传感器捕捉到的多个点云帧的输入生成对象的三维动作。2.根据权利要求1所述的方法,其中,所述对象是人体。3.根据权利要求2所述的方法,其中,所述同步LiDAR点云包括单目LiDAR传感器捕捉到的多个点云帧,所述单目LiDAR传感器与人体相隔一定距离,所述多个点云帧的每个点包括至少一个时间戳,其中所述距离的范围在至少10

50米之间。4.根据权利要求2所述的方法,其中,所述地面实况三维动作与人体相关,人体每个地面实况三维动作包括时间戳、空间坐标、人体多个关节旋转以及人体三维姿势。5.根据权利要求2所述的方法,其中,所述数据集进一步包括人体同步图像。6.根据权利要求5所述的方法,其中,所述数据集进一步包括人体同步图像的标签,其中,每个标签包括一个二维围框,围绕同步图像中描述的人体。7.根据权利要求6所述的方法,进一步包括以下步骤使用数据集中人体同步图像,训练第二机器学习模型;通过经过训练的第二机器学习模型,输出人体第二三维动作;基于人体第二三维动作,评价人体三维动作。8.根据权利要求1所述的方法,其中,所述机器学习模型包括一个时间编码器模块,用于从每个点云帧中提取全局描述符,生成全局描述符的多个隐藏变量,并预测多个关节位置;其中,所述时间编码器模块包括一个PointNet++网络、一个双向GRU和一个MLP编码器;其中,所述PointNet++网络可以提取全局描述符,所述双向GRU可以生成所述多个隐藏变量,所述MLP编码器可以预测所述多个关节位置。9.根据权利要求8所述的方法,其中,所述机器学习模型进一步包括一个动作学解算器模块,用于将全局特征与每个关节连接来生成完整的关节特征,并用于输出完整的关节特征来计算所述多个关节旋转,其中,所述动作学解算器包括一个ST

GCN,用于将全局特征与每个关节连接。10.根据权利要求9所述的方法,其中,所述机器学习模型进一步包括一个关节优化器模块,用于优化所述多个关节的旋转,其中,所述优化器模块包括一个SMPL模型,用于优化所述多个关节的旋转。11.一种基于激光雷达的三维人体动作捕捉模型的训练系统,所述系统包括:一个处理器;一个存储设备,用于存储代表场景中对象的机器学习模型以及数据集,数据集包括单目LiDAR传感器捕捉到的同步LiDAR点云以及从IMU设备获得的地面实况三维动作,其中,所述机器学习模型可以基于单目LiDAR传感器捕捉到的多个点云帧的输入生成对象的三维动作;一个存储器,用于存储指令,当所述处理器执行指令时,使系统能够利用数据集来进行机器学习模型的训练。
12.根据权利要求11所述的系统,其中,所述对象是人体。13.根据权利要求12所述的系统,其中,所述同步LiDAR点云包括单目LiDAR传感器捕捉到的多个点云帧,所述单目LiDAR传感器与人体相隔一段距离,所述多个点云帧的每个点包括一个时间戳,其中所述距离的范围在至少10

50米之间。14.根据权利要求12所述的系统,其中,所述地面实况三维动作与人体相关,人体每个地面实况三维动作包括时间戳、空间坐标、人体多个关节旋转以及人体三维姿势。15.根据权利要求12所述的系统,其中,所述数据集进一步包括人体同步图像。16.根据权利要求15所述的系统,其中,所述数据集进一步包括人体同步图像的标签,其中,每个标签包括一个二维围框,围绕同步图像中描述的人体。17.根据权利要求16所述的系统,其中,...

【专利技术属性】
技术研发人员:王程李嘉廉许岚温程璐虞晶怡
申请(专利权)人:上海科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1