基于时空关联图像的3D形态和姿态估计方法和装置制造方法及图纸

技术编号:29791610 阅读:15 留言:0更新日期:2021-08-24 18:10
本发明专利技术提供一种基于时空关联图像的3D形态和姿态估计方法和装置,该方法包括以下步骤:输入具有时间或空间关联性的多个图像帧;对输入的图像帧利用图像特征提取网络进行图像特征提取,得到对应的特征向量;利用时空序列特征提取网络结合注意力机制对各图像帧对应的特征向量进行时序或空间特征提取,得到不同时刻或位置的图片特征向量;将不同时刻或位置的图片特征向量输入包括多层感知机模型的回归模型获得各时刻或位置的估计结果,所述各时刻或位置的估计结果包括各时刻或位置每个关键点的三维信息。本发明专利技术实施例的方法和装置能够降低估计结果误差和估计结果的加速度误差,从而降低估计结果的抖动程度。

【技术实现步骤摘要】
基于时空关联图像的3D形态和姿态估计方法和装置
本专利技术涉及计算机视觉
,具体涉及一种基于时空关联图像的3D形态和姿态估计方法和装置,尤其涉及一种遮挡场景下的基于时空关联图像的3D形态和姿态估计方法以及解决估计结果抖动的方法及装置。
技术介绍
当前,形态和姿态估计算法的目标是通过视频或一系列空间上相关的图片作为输入得出其中人体或物体的形态和姿态,在人机交互领域以及增强现实领域都有着很大的应用价值,无论是面向娱乐还是面向生产都有着很好的应用前景。目前现有的形态和姿态估计方法中,主要分为两种:1)分别是利用2D关键点作为特征然后训练一个2D关键点到3D关键点的映射网络;2)以图片外观特征向量作为输入然后直接回归得到3D旋转信息。专利号为ZL202010717560.4的中国专利中提到一种有遮挡情况下的人体三维重建方法,该方法利用单帧RGB-D图像,先利用实例分割得到图像人体部分和遮挡物体部分的像素掩码,然后利用掩码分割深度图像。然后先利用卷积神经网络进行遮挡物体姿态估计和三维重建,然在利用遮挡物体的三维模型,色彩图像以及人体深度图像对人进行三维重建。提高了有物体遮挡情况下的人体姿态估计的准确性和可靠性。但是对于人体自遮挡的场景,此方法并不适用,现存方法在自遮挡场景下估计结果通常会存在较大的估计错误。申请号为CN202010991889.X的中国专利申请中提到一种基于沙漏网络结合注意力机制的人体姿态估计方法,该方法是将沙漏网络结合图像全局注意力以及局部注意力来提高2D关键点检测精度。此人体姿态估计方法的注意力机制是图像层次的注意力机制,并且此方法任务是对人体2D关键点进行估计,对于3D人体姿态估计方法并不适用。伯克利团队和马普提出了一种端到端的网络模型,可以从单张RGB图像中恢复出3D人体的运动参数。该网络模型首先需要通过resnet50提取图像特征,然后直接通过回归网络回归出3D人体运动参数,并引入了CNN结构的判别器来对前面的回归网络进行监督。但现有方法中引入的对抗性训练稳定性较差,实验数据表明现有技术中引入的对抗性训练存在不足,从直观角度进行分析:当判别器损失函数为0说明其已经达到最优,可以完美区分生成样本和真实样本,说明直到训练结束,生成的样本分布也无法接近真实样本,生成器的能力过差。如何在遮挡场景下基于视频或图片输入进行3D形态和姿态估计以及解决估计结果的抖动,是一个有待解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于时空关联图像的3D形态和姿态估计方法和装置,其以时间或空间上相关的图片为输入来对其中的人体或物体进行姿态和形态估计,使得物体存在遮挡情况下的估计结果误差低于现有方法。根据本专利技术的一方面,提供的基于时空关联图像的3D形态和姿态估计方法包括一下步骤:输入具有时间或空间关联性的包含主体的若干图像帧;对输入的图像帧利用图像特征提取网络进行图像特征提取,得到各图像帧对应的特征向量;利用时空序列特征提取网络结合注意力机制对各图像帧对应的特征向量进行时序特征或空间特征提取,得到不同时刻或不同位置的图片特征向量;将不同时刻或不同位置的图片特征向量输入包括多层感知机模型的回归模型获得各时刻或位置的估计结果,所述各时刻或位置的估计结果包括各时刻或位置每个关键点的三维信息。在本专利技术一些实施例中,所述方法还包括:将所述每个关键点的三维信息通过参数化评估模型得到每个关键点的三维坐标,并分别以得到的各关键点的三维坐标和基于数据集中三维信息真值得到的关键点三维坐标作为判别器的输入,分别得到估计结果评分和真实时空序列评分;将得到的估计结果评分和真实时空序列评分分别用作生成器的损失函数和判别器的损失函数,进行反向传播,以实现对抗性学习。在本专利技术一些实施例中,所述利用时空序列特征提取网络结合注意力机制对各图像帧对应的特征向量进行时空序列特征提取,得到不同时刻或位置的图片特征向量,包括:以所述时空序列特征提取网络输出的不同时刻或不同位置的隐状态作为注意力机制模块的输入,通过计算隐状态的投影得到3种不同的投影数据表示,利用所述3种不同的投影数据表示,所述3种不同的投影数据表示通过3个可学习的参数矩阵对输入的隐状态进行变换;利用第一和第二种投影数据表示来计算不同时刻或不同位置的相关性,基于相关性计算不同时刻或不同位置隐状态的权重;以计算的权重对第三种投影数据表示进行加权,作为注意力机制模块的输出。通过注意力机制的引入,时序或空间特征的提取更为充分,使得估计结果的抖动程度下降,即加速度误差降低。在本专利技术一些实施例中,所述方法还包括:在输入具有时间或空间关联性的图片或图像帧之前,对初始图像帧进行数据预处理,所述数据预处理包括:对初始获得的图像帧进行切帧操作得到每一帧的图片;对各帧图片进行下采样,获得第一图像帧;检测各第一图像帧的2D关键点,基于各第一图像帧的2D关键点的位置对获得的第一连续图像帧进行裁剪为固定像素大小,来获得包含主体的图像帧。在本专利技术一些实施例中,所述方法还包括,对各时刻或位置每个关键点的三维信息进行后处理,所述后处理包括:获取图像帧内2D关键点估计结果;利用所述2D关键点估计结果和预定的先验条件来对所述关键点的三维信息进行约束,通过数值优化使目标函数最小化。在本专利技术一些实施例中,所述方法还包括:在各时刻或位置每个关键点的三维信息进行后处理之前,通过对估计结果进行滤波的方式对每个关键点的三维信息进行预平滑处理;和/或在各时刻每个关键点的三维信息进行后处理之后,通过对估计结果进行滤波的方式对每个关键点的三维信息进行预平滑处理。在本专利技术一些实施例中,判别器输出的是对估计结果和对数据集中真实值的评分,利用评分来对判别器和生成器进行监督,分数高低表示判别器输入和真值分布之间的距离,分数高表示和真值距离小;判别器的损失函数为估计值分数和分数最小值之间的距离与真实值分数与分数最大值之间距离之和;为生成器提供监督的损失函数则是估计值分数与分数最大值之间的距离。在本专利技术一些实施例中,所述目标函数包括2D关键点误差的2范数项、运动参数的高斯混合模型先验项和预先指定的运动先验项;数值优化算法采用L-BFGS方法来对输入的原始运动参数估计值进行调整,使其更符合原始先验,得到后处理之后的被评估体的关键点信息。本专利技术的另一方面,还提供了一种基于时空关联图像的3D形态和姿态估计装置,包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如前所述方法的步骤。本专利技术的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如前所述方法的步骤。本专利技术的基于时空关联图像的3D形态和姿态估计方法和装置,以时间或空间上相关的图片为输入来对其中的人体或物体进行姿态和形态估计,使得物体存在遮挡情况下的估计结果误差低于现有方法。进一步地,通过对估计结果进行平滑操作,能够降低估计结果的估计结果误本文档来自技高网
...

【技术保护点】
1.一种基于时空关联图像的3D形态和姿态估计方法,其特征在于,该方法包括以下步骤:/n输入具有时间或空间关联性的包含主体的若干图像帧;/n对输入的图像帧利用图像特征提取网络进行图像特征提取,得到各图像帧对应的特征向量;/n利用时空序列特征提取网络结合注意力机制对各图像帧对应的特征向量进行时序特征或空间特征提取,得到不同时刻或不同位置的图片特征向量;/n将不同时刻或不同位置的图片特征向量输入包括多层感知机模型的回归模型获得各时刻或位置的估计结果,所述各时刻或位置的估计结果包括各时刻或位置每个关键点的三维信息。/n

【技术特征摘要】
1.一种基于时空关联图像的3D形态和姿态估计方法,其特征在于,该方法包括以下步骤:
输入具有时间或空间关联性的包含主体的若干图像帧;
对输入的图像帧利用图像特征提取网络进行图像特征提取,得到各图像帧对应的特征向量;
利用时空序列特征提取网络结合注意力机制对各图像帧对应的特征向量进行时序特征或空间特征提取,得到不同时刻或不同位置的图片特征向量;
将不同时刻或不同位置的图片特征向量输入包括多层感知机模型的回归模型获得各时刻或位置的估计结果,所述各时刻或位置的估计结果包括各时刻或位置每个关键点的三维信息。


2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述每个关键点的三维信息通过参数化评估模型得到每个关键点的三维坐标,并分别以得到的各关键点的三维坐标和基于数据集中三维信息真值得到的关键点三维坐标作为判别器的输入,分别得到估计结果评分和真实时空序列评分;
将得到的估计结果评分和真实时空序列评分分别用作生成器的损失函数和判别器的损失函数,进行反向传播,以实现对抗性学习。


3.根据权利要求1所述的方法,其特征在于,所述利用时空序列特征提取网络结合注意力机制对各图像帧对应的特征向量进行时空序列特征提取,得到不同时刻或位置的图片特征向量,包括:
以所述时空序列特征提取网络输出的不同时刻或不同位置的隐状态作为注意力机制模块的输入,通过计算隐状态的投影得到3种不同的投影数据表示,利用所述3种不同的投影数据表示,所述3种不同的投影数据表示通过3个可学习的参数矩阵对输入的隐状态进行变换;
利用第一和第二种投影数据表示来计算不同时刻或不同位置的相关性,基于相关性计算不同时刻或不同位置隐状态的权重;
以计算的权重对第三种投影数据表示进行加权,作为注意力机制模块的输出。


4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在输入具有时间或空间关联性的图片或图像帧之前,对初始图像帧进行数据预处理,所述数据预处理包括:
对初始获得的图像帧进行切帧操作得到每一帧的图片;
对各帧图片进行下采样,获得第一图像帧;
...

【专利技术属性】
技术研发人员:王文东孙逸典张继威田野阙喜戎龚向阳
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1