基于时空关联图像的3D形态和姿态估计方法和装置制造方法及图纸

技术编号：29791610 阅读：15 留言：0更新日期：2021-08-24 18:10

本发明专利技术提供一种基于时空关联图像的3D形态和姿态估计方法和装置，该方法包括以下步骤：输入具有时间或空间关联性的多个图像帧；对输入的图像帧利用图像特征提取网络进行图像特征提取，得到对应的特征向量；利用时空序列特征提取网络结合注意力机制对各图像帧对应的特征向量进行时序或空间特征提取，得到不同时刻或位置的图片特征向量；将不同时刻或位置的图片特征向量输入包括多层感知机模型的回归模型获得各时刻或位置的估计结果，所述各时刻或位置的估计结果包括各时刻或位置每个关键点的三维信息。本发明专利技术实施例的方法和装置能够降低估计结果误差和估计结果的加速度误差，从而降低估计结果的抖动程度。

全部详细技术资料下载

【技术实现步骤摘要】
基于时空关联图像的3D形态和姿态估计方法和装置
本专利技术涉及计算机视觉
，具体涉及一种基于时空关联图像的3D形态和姿态估计方法和装置，尤其涉及一种遮挡场景下的基于时空关联图像的3D形态和姿态估计方法以及解决估计结果抖动的方法及装置。
技术介绍
当前，形态和姿态估计算法的目标是通过视频或一系列空间上相关的图片作为输入得出其中人体或物体的形态和姿态，在人机交互领域以及增强现实领域都有着很大的应用价值，无论是面向娱乐还是面向生产都有着很好的应用前景。目前现有的形态和姿态估计方法中，主要分为两种：1)分别是利用2D关键点作为特征然后训练一个2D关键点到3D关键点的映射网络；2)以图片外观特征向量作为输入然后直接回归得到3D旋转信息。专利号为ZL202010717560.4的中国专利中提到一种有遮挡情况下的人体三维重建方法，该方法利用单帧RGB-D图像，先利用实例分割得到图像人体部分和遮挡物体部分的像素掩码，然后利用掩码分割深度图像。然后先利用卷积神经网络进行遮挡物体姿态估计和三维重建，然在利用遮挡物体的三维模型，色彩图像以及人体深度图像对人进行三维重建。提高了有物体遮挡情况下的人体姿态估计的准确性和可靠性。但是对于人体自遮挡的场景，此方法并不适用，现存方法在自遮挡场景下估计结果通常会存在较大的估计错误。申请号为CN202010991889.X的中国专利申请中提到一种基于沙漏网络结合注意力机制的人体姿态估计方法，该方法是将沙漏网络结合图像全局注意力以及局部注意力来提高2D关键点检测精度。此人体姿态估计方...

【技术保护点】
1.一种基于时空关联图像的3D形态和姿态估计方法，其特征在于，该方法包括以下步骤：/n输入具有时间或空间关联性的包含主体的若干图像帧；/n对输入的图像帧利用图像特征提取网络进行图像特征提取，得到各图像帧对应的特征向量；/n利用时空序列特征提取网络结合注意力机制对各图像帧对应的特征向量进行时序特征或空间特征提取，得到不同时刻或不同位置的图片特征向量；/n将不同时刻或不同位置的图片特征向量输入包括多层感知机模型的回归模型获得各时刻或位置的估计结果，所述各时刻或位置的估计结果包括各时刻或位置每个关键点的三维信息。/n

【技术特征摘要】
1.一种基于时空关联图像的3D形态和姿态估计方法，其特征在于，该方法包括以下步骤：
输入具有时间或空间关联性的包含主体的若干图像帧；
对输入的图像帧利用图像特征提取网络进行图像特征提取，得到各图像帧对应的特征向量；
利用时空序列特征提取网络结合注意力机制对各图像帧对应的特征向量进行时序特征或空间特征提取，得到不同时刻或不同位置的图片特征向量；
将不同时刻或不同位置的图片特征向量输入包括多层感知机模型的回归模型获得各时刻或位置的估计结果，所述各时刻或位置的估计结果包括各时刻或位置每个关键点的三维信息。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：
将所述每个关键点的三维信息通过参数化评估模型得到每个关键点的三维坐标，并分别以得到的各关键点的三维坐标和基于数据集中三维信息真值得到的关键点三维坐标作为判别器的输入，分别得到估计结果评分和真实时空序列评分；
将得到的估计结果评分和真实时空序列评分分别用作生成器的损失函数和判别器的损失函数，进行反向传播，以实现对抗性学习。

3.根据权利要求1所述的方法，其特征在于，所述利用时空序列特征提取网络结合注意力机制对各图像帧对应的特征向量进行时空序列特征提取，得到不同时刻或位置的图片特征向量，包括：
以所述时空序列特征提取网络输出的不同时刻或不同位置的隐状态作为注意力机制模块的输入，通过计算隐状态的投影得到3种不同的投影数据表示，利用所述3种不同的投影数据表示，所述3种不同的投影数据表示通过3个可学习的参数矩阵对输入的隐状态进行变换；
利用第一和第二种投影数据表示来计算不同时刻或不同位置的相关性，基于相关性计算不同时刻或不同位置隐状态的权重；
以计算的权重对第三种投影数据表示进行加权，作为注意力机制模块的输出。

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：
在输入具有时间或空间关联性的图片或图像帧之前，对初始图像帧进行数据预处理，所述数据预处理包括：
对初始获得的图像帧进行切帧操作得到每一帧的图片；
对各帧图片进行下采样，获得第一图像帧；
...

【专利技术属性】
技术研发人员：王文东，孙逸典，张继威，田野，阙喜戎，龚向阳，
申请(专利权)人：北京邮电大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人