基于掩码-RCNN进行稠密人体姿态估计的系统及方法技术方案

技术编号：21606723 阅读：29 留言：0更新日期：2019-07-13 18:38

本发明专利技术涉及人体姿态估计技术，其公开了一种基于掩码‑RCNN进行稠密人体姿态估计的系统及方法，解决传统技术在实例分割时，存在的由于目标检测框包含多个目标而无法精准进行稠密人体姿态估计的问题。本发明专利技术中的系统包括：目标检测模块，用于获取精确的目标检测框；语义分割模块，用于对目标检测框的检测对象进行语义分割，获得语义分割掩码；实例分割模块，用于对语义分割掩码进行处理获得人体实例分割掩码；稠密姿态估计模块，用于建立RGB图像与3D人体表面模型的关系，并输出人体部件索引和3D模型上的UV坐标，从而将RGB图像上的纹理信息映射到3D人体表面模型上。本发明专利技术适用于各种场景下的稠密人体姿态估计。

System and Method of Dense Human Attitude Estimation Based on Mask-RCNN

全部详细技术资料下载

【技术实现步骤摘要】
基于掩码-RCNN进行稠密人体姿态估计的系统及方法
本专利技术涉及人体姿态估计技术，具体涉及一种基于掩码-RCNN进行稠密人体姿态估计的系统及方法。
技术介绍
在对图片中的人体个体级别分析方面，较早的方法如Vitruvian-Manifold[1]通过深度图的方式对人体进行姿态估计，而目前最新的方法则采用掩码-RCNN[2]作为基本框架，将其生成的目标检测框作为输入进行进一步分割以及稠密像素点估计，如DensePose[3]。然而在自然环境下，对于实例分割来说，目标检测框并不能完全准确地检测有且仅有一个目标，因为自然环境下的图片包含各种复杂情况，这使得目标检测框总是会包含多个目标，其中这些目标有的很小，有的重叠在一起，有的背景十分复杂，有的大小比例各不相同。因此，传统技术存在着目标检测框包含多个目标无法精准进行稠密人体姿态估计的问题。参考文献：[1]TaylorJ,ShottonJ,SharpT,etal.TheVitruvianManifold:InferringDenseCorrespondencesforOne-ShotHumanPoseEstimation[C]//IEEEComputerVisionandPatternRecognition.IEEE,2012.[2]HeK,GkioxariG,DollarP,etal.MaskR-CNN.[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2017,PP(99):1-1.[3]GülerRA,NeverovaN,Kokkin...

【技术保护点】
1.基于掩码‑RCNN进行稠密人体姿态估计的系统，其特征在于，包括：目标检测模块，用于获取精确的目标检测框，其包括两个串行的均包括1024个通道的全连接层以及紧接的两个并行的分别包括2个通道的和8个通道的全连接层；语义分割模块，用于对目标检测框的检测对象进行语义分割，获得语义分割掩码，其包括用于产生一个特征图的4个连续的3*3卷积层以及用于对产生的特征图进行线性上采样的两个4*4反卷积层，在两个4*4反卷积层后还连接有用于调整上采样得到的热力图的通道数的维度分别为3*3和1*1的两个卷积层；实例分割模块，用于对语义分割掩码进行处理获得人体实例分割掩码，其包括4个连续的3*3卷积层以及紧接的上采样模块，所述上采样模块包括两个4*4反卷积层；稠密姿态估计模块，用于建立RGB图像与3D人体表面模型的关系，并输出3D人体部件索引和3D人体表面模型上的UV坐标，从而将RGB图像上的纹理信息映射到3D人体表面模型上；其包括8个串行的3*3卷积层以及3个并行的输出部件，所述3个并行的输出部件分别用于输出3D人体部件的索引，3D人体部件上的U坐标和V坐标。

【技术特征摘要】
1.基于掩码-RCNN进行稠密人体姿态估计的系统，其特征在于，包括：目标检测模块，用于获取精确的目标检测框，其包括两个串行的均包括1024个通道的全连接层以及紧接的两个并行的分别包括2个通道的和8个通道的全连接层；语义分割模块，用于对目标检测框的检测对象进行语义分割，获得语义分割掩码，其包括用于产生一个特征图的4个连续的3*3卷积层以及用于对产生的特征图进行线性上采样的两个4*4反卷积层，在两个4*4反卷积层后还连接有用于调整上采样得到的热力图的通道数的维度分别为3*3和1*1的两个卷积层；实例分割模块，用于对语义分割掩码进行处理获得人体实例分割掩码，其包括4个连续的3*3卷积层以及紧接的上采样模块，所述上采样模块包括两个4*4反卷积层；稠密姿态估计模块，用于建立RGB图像与3D人体表面模型的关系，并输出3D人体部件索引和3D人体表面模型上的UV坐标，从而将RGB图像上的纹理信息映射到3D人体表面模型上；其包括8个串行的3*3卷积层以及3个并行的输出部件，所述3个并行的输出部件分别用于输出3D人体部件的索引，3D人体部件上的U坐标和V坐标。2.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统，其特征在于，所述目标检测模块以小特征图作为输入，所述小特征图的获取方法为：采用特征金字塔网络结构作为基本网络，从输入图片中提取出一个特征图，输入到感兴趣区排列池化层中，通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图。3.如权利要求2所述的基于掩码-RCNN进行稠密人体姿态估计的系统，其特征在于，所述通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图具体包括：在感兴趣区映射到特征图后，将候选区域分割成n*n个单元，在每个单元上固定4个点，分别用双线性插值计算出每个点的位置，然后再进行最大池化操作。4.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统，其特征在于，所述目标检测模块，在训练时分别使用一个像素级别的交叉熵损失函数用于对人的分类以及使用一个SmoothL1Loss函数用于目标检测框的回归计算。5.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统，其特征在于，所述语义分割模块，在训练时通过定义语义分割损失函数通过将图片中所有的人当成前景来对整个网络进行中继监督，最后输...

【专利技术属性】
技术研发人员：高联丽，黄梓杰，宋井宽，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人