一种基于弱监督学习的人体三维姿态估计方法技术

技术编号:38817205 阅读:14 留言:0更新日期:2023-09-15 19:56
本发明专利技术涉及一种基于弱监督学习的人体三维姿态估计方法,从图像/视频中估计出人体的各个主要关节点的三维坐标,得到人体在图像/视频中的三维姿态,从而能够帮助计算机在立体空间中理解人体的行为动作。首先基于对抗生成式网络的二维人体姿态估计方法,利用单目视频的帧间一致性假设,构建时空域的对抗生成网络,引入自适应滤波处理,通过将自适应滤波器嵌入到GAN中,实现了端到端的二维人体姿态估计生成;其次,利用视频的帧间信息估计出深度,并结合估计出的相机位姿,从参考帧变换到目标帧,以几何一致性为约束,对估计的三维骨架关节点进行深度约束;最后,引入图像处理中的多分辨思想,通过将生成的三维人体骨架反投影回二维空间,降采样为低分辨率的二维人体部件图,与二维人体姿态估计网络构成循环对抗生成网络。本发明专利技术提出的基于弱监督学习的三维人体姿态估计方法,可以提升二维姿态与三维姿态估计的准确性,在减少对语义标注依赖的前提下,尽可能消除语义歧义性以及几何不一致。尽可能消除语义歧义性以及几何不一致。尽可能消除语义歧义性以及几何不一致。

【技术实现步骤摘要】
一种基于弱监督学习的人体三维姿态估计方法


[0001]本专利技术涉及计算机视觉领域,特别是涉及一种基于弱监督学习的人体三维姿态估计方法。

技术介绍

[0002]运动是人类维持生命、完成任务、改造客观世界的基础,也是人类在图像等信息媒体中的主要表现形式,使计算机获取并分析场景中人物的运动是模式识别与自动化领域的一项重要内容。人体运动数据较好地保持了真实人体运动细节,并详细记录了其运动轨迹,被广泛应用在体育仿真、医学理疗、机器人模拟、工厂监控等领域。在此背景下,以获取和利用人体运动数据为目的的人体运动监测研究已经成为近年来研究热点,主要包含对人体媒体数据的信号序列处理、人体姿态估计、运动重构、运动追踪、运动识别、运动质量评估,以及运动合成与编辑等。
[0003]随着对人体运动监测的研究逐渐深入并应用到各个领域,以及运动数据传感器设备的逐渐普及,利用机器学习技术自动化地获取并分析运动数据中承载的人体运动信息,实现人体运动在线监测,越来越受到研究人员的关注。当前人体运动数据捕获方法主要分为从特定的运动捕获设备获取、从其他媒体数据中估计人体运动信息,以及从运动数据库中编辑及合成新的运动数据。其中,通过特定的运动捕获设备进行运动数据采集能够保留人体运动的细节特征,生成高逼真度的人体动画,在计算机动画和游戏开发领域具有广泛的应用。然而,此类方法进行数据捕获一般为针对某一类特定运动获取一次性数据,当所需运动类型发生变化时,就需要选择特定人员在特定场景进行重新捕获。这将带来捕获成本高、数据来源少等问题,且不能完全反映人类的正常自然生活,因而难以用于实际工业应用场景。随着各种媒体数据捕获设备的发展与普及,人体运动信息被广泛记录在监控、影视、日常摄像等媒体数据中,具有来源广、自然性强、内容丰富、成本低等特点。然而,从海量媒体资源中高效地、准确地获取用户所需要的人体运动信息是难点。
[0004]一方面,现有媒体数据本身存在噪声、模糊、遮挡、光照变化等由视觉传感器引入的失真,样本质量参差不齐;另一方面,人体结构和运动本身具有复杂性与歧义性,且易受个体差异、环境、视角等多重因素的约束与干扰,传统特征表示在跨数据集上表现较差。因此,如何从海量媒体数据中,在尽可能抑制样本失真干扰与减少监督信息依赖的前提下,高效率地获取到高准确率的人体运动数据,进而学习具有良好泛化能力的人体运动检测模型与动作质量评估指标,是目前亟需解决的关键科学问题。围绕上述问题,有必要深入探索弱监督学习范式在人体运动监测任务中的机理,研究基于弱监督学习的三维人体姿态估计方法。

技术实现思路

[0005]本专利技术主要解决的技术问题:1.针对现有二维人体姿态估计方法大多人体部件语义标注的问题,研究基于对抗生成式网络的二维人体姿态估计方法,利用单目视频的帧间
一致性假设,构建时空域的对抗生成网络(Generative Adversarial Network,GAN)。为提升生成的二维人体姿态图的准确性,引入自适应滤波处理,通过将自适应滤波器嵌入到GAN中,实现了端到端的二维人体姿态估计生成。2.针对现有三维人体姿态估计结果存在视角、尺度等属性的歧义问题,研究基于深度约束的三维人体姿态估计方法。通过对抗生成式网络从二维人体姿态估计结果中恢复三维人体骨架序列。在此过程中,利用视频的帧间信息估计出深度,并结合估计出的相机位姿,从参考帧变换到目标帧,以几何一致性为约束,对估计的三维骨架关节点进行深度约束,从而尽可能确保恢复的人体三维骨架序列的视角不变性与尺度不变性。3.针对现有从视频中恢复人体姿态存在训练难度高,容易出现累积误差甚至出现模式崩塌等问题,引入图像处理中的多分辨思想,通过将生成的三维人体骨架反投影回二维空间,降采样为低分辨率的二维人体部件图,与二维人体姿态估计网络构成循环对抗生成网络(Cycle

GAN),从而避免了已有GAN网络递归训练困难的问题。
[0006]为解决上述技术问题,本专利技术采用的一个技术方案是:提出基于弱监督学习的三维人体姿态估计方法。建立基于对抗生成网络的人体二维姿态与三维姿态恢复方法,利用自适应滤波器以及深度约束,提升二维姿态与三维姿态估计的准确性,在减少对语义标注依赖的前提下,尽可能消除语义歧义性以及几何不一致,其具体实现步骤如下:
[0007]步骤(1)、利用图像增强的对抗生成网络从单目视频中提取二维人体姿态估计;
[0008]步骤(2)、利用深度约束的对抗生成网络恢复三维人体姿态估计;
[0009]步骤(3)、利用单目视频中的相邻帧的先验信息,以及人体部件模型语义先验,在尽可能减少标注数据的前提下,实现高精度的三维人体姿态估计。
[0010]进一步的,所述步骤(1)利用图像增强的对抗生成网络从单目视频中提取二维人体姿态估计具体步骤如下:
[0011]步骤(A1)、假设场景本身是静止的,没有任何移动的人物;目标帧和源图片之间不存在任何遮挡关系;人体表面是Lambertian的,即不存在由视点转换而引起的颜色变化;
[0012]步骤(A2)、为使视点合成能够嵌入卷积神经网络,利用双线性插值的思想,将传统warping方法可微化,以此为基础,利用编码

解码网络,分别估计二维人体姿态与相机位姿。为提升估计结果的准确性,引入动态滤波网络,根据输入帧的不同,自适应地调整滤波器系数。通过对输入帧进行自适应滤波,在保证对局部信息提取的同时,加强对全局信息的利用。最后,对估计得到的二维人体姿态,通过判别器,将其与部分已知人体姿态进行相似度度量,进一步提升估计结果的鲁棒性。
[0013]进一步的,所述步骤(2)利用深度约束的对抗生成网络恢复三维人体姿态估计方法具体步骤如下:
[0014]步骤(B1)、利用全连接网络从二维姿态回归人体各关节点的三维坐标,作为生成式对抗网络中生成器的生成样本。同时,将生成的三维人体姿态重投影回三维人体姿态,并与输入的二维人体姿态计算损失函数,返回给生成器;
[0015]步骤(B2)、将现有少量已知的三维人体姿态数据当做真实样本,通过对抗式训练,使得生成器学习到真实的三维人体姿态的特征。在判别器中,首先使用运动链空间矩阵,获取三维人体姿态骨架长度和骨架间夹角的信息;然后,让判别器对其进行特征提取与真实性判别;
[0016]步骤(B3)、利用关节点的相对深度关系计算生成器生成的三维人体姿态的相对深
度损失函数,并与判别器联合约束生成器。
[0017]进一步的,所述步骤(3)利用单目视频中的相邻帧的先验信息,以及人体部件模型语义先验,在尽可能减少标注数据的前提下,实现高精度的三维人体姿态估计方法具体步骤如下:
[0018]步骤(C1)、对估计得到的三维人体姿态以及相机位姿,通过视点变换以及重投影,得到二维人体姿态;
[0019]步骤(C2)、将投影后的二维人体姿态进行下采样,得到低分辨率的二维人体姿态,并将输入视频帧进行下采样,利用自编码器估计二维人体姿态;
[0020]步骤(C3)、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对抗生成网络的弱监督三维人体姿态估计方法,其特征在于该方法步骤如下:步骤(1)、基于动态滤波的对抗生成式二维人体姿态估计,单目视频的二维人体姿态估计利用连续的视频帧得到t时刻的二维人体姿态D
t
和相机运动矩阵T
t
。在缺少真实值的条件下,利用视角之间的转换完成对其中各个网络的监督。在给定参考帧的情况下,利用参考帧及其与相邻帧之间的相关性,来衡量二维人体姿态是否准确;步骤(2)、基于深度约束的三维人体姿态估计,在提取到二维人体姿态的基础上,采用弱监督对抗式学习二维到三维数据分布之间的映射,根据人体运动学模型,若三维人体姿态的二维姿态、关节点间的相对深度以及骨架长度这三个要素确定,则三维人体姿态几乎可以完全确定。据此,设计一个弱监督学习框架,对三维人体姿态的三要素进行约束;步骤(3)、基于多分辨迭代训练的自监督机制,为确保最终估计的三维人体姿态的准确性,借鉴图像超分辨率任务中的多尺度迭代训练思想,设计多分辨迭代训练的自监督机制。2.根据权利要求1所述的一种基于对抗生成网络的弱监督三维人体姿态估计方法,其特征在于:所述步骤(1)基于动态滤波的对抗生成式二维人体姿态估计,具体步骤如下:步骤(A1)、假设场景本身是静止的,没有任何移动的人物;目标帧和源图片之间不存在任何遮挡关系;人体表面是Lambertian的,即不存在由视点转换而引起的颜色变化;步骤(A2)、为使视点合成能够嵌入卷积神经网络,利用双线性插值的思想,将传统warping方法可微化,以此为基础,利用编码

解码网络,分别估计二维人体姿态与相机位姿。为提升估计结果的准确性,引入动态滤波网络,根据输入帧的不...

【专利技术属性】
技术研发人员:牟恒辰刘义李文昌刘晓冬刘瑞军王晓川
申请(专利权)人:北京机械工业自动化研究所有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1