【技术实现步骤摘要】
基于不确定性引导的人体姿态估计域自适应网络及方法
[0001]本专利技术涉及一种人体姿态估计域自适应网络及方法,具体涉及一种基于不确定性引导的人体姿态估计域自适应网络及方法。
技术介绍
[0002]人体姿态估计是计算机视觉领域中非常重要的一项内容,根据输入图片中人物数目的多少,我们可以将2D人体姿态估计任务分为两类,即单人姿态估计和多人姿态估计。人体姿态估计的基本任务是从输入的图像或视频中估计出人体关节点的2D或3D位置信息,进而生成整个人体的骨骼姿态或者密集网格表面。它是动作识别、人机交互和增强现实等领域的基础,在许多现实场景中有十分广泛的应用。
[0003]在人体姿态估计任务中,我们经常会遇到算法实际应用的场景与其训练样本之间有较大分布差异的情况,如室内场景与道路场景、真实场景与虚拟场景之间均存在较大的风格差异。在这些情况下,算法的性能通常会有大幅度的下降。而若要针对不同数据域来单独采集样本并标注的话,这极其费时费力,且不现实。因此,如何让在源域中训练完成的人体姿态估计算法能够在目标域上有较好的泛化性能,是一个极具挑战的难题。针对人体姿态估计领域,现在主要有基于模型的传统人体姿态估计方法和基于深度学习的人体姿态估计方法。
[0004]传统的人体姿态估计方法主要分为两类,一类是利用图结构模型的方法来建模人体的各个部位,并利用概率统计模型来进行人体姿态估计。另一类则是将人体姿态估计任务看做分类任务来进行求解,例如Rogez等人利用人工设计的特征,并通过提出的随机决策树等方法来对人体姿态进行检测。与现有 ...
【技术保护点】
【技术特征摘要】
1.一种基于不确定性引导的人体姿态估计域自适应网络,其特征在于:包括主框架网络和子框架网络;所述主框架网络包括依次连接的输入层、第一卷积层、第一BatchNorm层、第一激活函数层、最大值池化层、第一瓶颈层、第二瓶颈层、第三瓶颈层、第四瓶颈层、Dropout层、反卷积层,以及分别和反卷积层输出端连接的热力图模块和不确定性学习模块;其中,第一瓶颈层、第二瓶颈层、第三瓶颈层和第四瓶颈层的网络结构均包括子框架网络;所述子框架网络包括依次连接的第一卷积层、第一BatchNorm层、第一激活函数层、第二卷积层、第二BatchNorm层、第二激活函数层、Droupout层、第三卷积层、第三BatchNorm层、跳跃连接相加层、第三激活函数层;所述输入层用于输入多帧相邻的视频帧图像;所述热力图模块和不确定性学习模块的输出结果用于估计人体姿态的类别标签。2.根据权利要求1所述的基于不确定性引导的人体姿态估计域自适应网络,其特征在于:所述主框架网络的各层参数设置为:所述第一卷积层的输入通道数为3或5或7,输出通道数为64~256,卷积步长为2;所述第一瓶颈层的输入通道数与第一卷积层的输出通道数相同,第一瓶颈层的输出通道数为256~512,卷积步长为1;所述第二瓶颈层的输入通道数与第一瓶颈层的输出通道数相同,第二瓶颈层的输出通道数为512~1024,卷积步长为1;所述第三瓶颈层的输入通道数与第二瓶颈层的输出通道数相同,第三瓶颈层的输出通道数为1024~2048,卷积步长为1;所述第四瓶颈层的输入通道数与第三瓶颈层的输出通道数相同,第四瓶颈层的输出通道数为2048,卷积步长为1;所述不确定性学习模块的输入通道数为2048,输出通道数为3或5或7,反卷积步长为1;所述热力图模块的输入通道数为2048,输出通道数为2048,反卷积步长为1。3.根据权利要求2所述的基于不确定性引导的人体姿态估计域自适应网络,其特征在于:所述主框架网络和子框架网络中Dropout的丢弃概率均为0.1;所述主框架网络的各层参数设置为:所述第一卷积层的输入通道数为3,输出通道数为64,卷积步长为2;所述第一瓶颈层的输入通道数为64,输出通道数为256,卷积步长为1;所述第二瓶颈层的输入通道数为256,输出通道数为512,卷积步长为1;所述第三瓶颈层的输入通道数为512,输出通道数为1024,卷积步长为1;所述第四瓶颈层的输入通道数为1024,输出通道数为2048,卷积步长为1;所述不确定性学习模块的输入通道为2048,输出通道为3,反卷积步长为1;所述热力图模块的输入通道为2048,输出通道为2048,反卷积步长为1。4.根据权利要求3所述的基于不确定性引导的人体姿态估计域自适应网络,其特征在于:
所述输入层为奇数帧图像。5.一种基于不确定性引导的人体姿态估计域自适应方法,使用权利要求1
‑
4任一所述的基于不确定性引导的人体姿态估计域自适应网络,其特征在于,包括以下步骤:步骤1)获取训练源域数据集和目标域数据样本集;所述训练源域数据集为带标签的数据集,所述目标域数据样本集为不带标签的待测试数据集;步骤2)利用训练源域数据集对权利要求1
‑
4任一所述的自适应网络进行预训练,再将目标域数据样本集送入该自适应网络中,得到目标域数据样本集所有图像的预测标签;步骤3)获得模型不确定性和数据不确定性步骤3.1)将目标域数据样本集所有...
【专利技术属性】
技术研发人员:董伟生,孙玉林,毋芳芳,石光明,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。