基于掩码-RCNN进行稠密人体姿态估计的系统及方法技术方案

技术编号:21606723 阅读:29 留言:0更新日期:2019-07-13 18:38
本发明专利技术涉及人体姿态估计技术,其公开了一种基于掩码‑RCNN进行稠密人体姿态估计的系统及方法,解决传统技术在实例分割时,存在的由于目标检测框包含多个目标而无法精准进行稠密人体姿态估计的问题。本发明专利技术中的系统包括:目标检测模块,用于获取精确的目标检测框;语义分割模块,用于对目标检测框的检测对象进行语义分割,获得语义分割掩码;实例分割模块,用于对语义分割掩码进行处理获得人体实例分割掩码;稠密姿态估计模块,用于建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D模型上的UV坐标,从而将RGB图像上的纹理信息映射到3D人体表面模型上。本发明专利技术适用于各种场景下的稠密人体姿态估计。

System and Method of Dense Human Attitude Estimation Based on Mask-RCNN

【技术实现步骤摘要】
基于掩码-RCNN进行稠密人体姿态估计的系统及方法
本专利技术涉及人体姿态估计技术,具体涉及一种基于掩码-RCNN进行稠密人体姿态估计的系统及方法。
技术介绍
在对图片中的人体个体级别分析方面,较早的方法如Vitruvian-Manifold[1]通过深度图的方式对人体进行姿态估计,而目前最新的方法则采用掩码-RCNN[2]作为基本框架,将其生成的目标检测框作为输入进行进一步分割以及稠密像素点估计,如DensePose[3]。然而在自然环境下,对于实例分割来说,目标检测框并不能完全准确地检测有且仅有一个目标,因为自然环境下的图片包含各种复杂情况,这使得目标检测框总是会包含多个目标,其中这些目标有的很小,有的重叠在一起,有的背景十分复杂,有的大小比例各不相同。因此,传统技术存在着目标检测框包含多个目标无法精准进行稠密人体姿态估计的问题。参考文献:[1]TaylorJ,ShottonJ,SharpT,etal.TheVitruvianManifold:InferringDenseCorrespondencesforOne-ShotHumanPoseEstimation[C]//IEEEComputerVisionandPatternRecognition.IEEE,2012.[2]HeK,GkioxariG,DollarP,etal.MaskR-CNN.[J].IEEETransactionsonPatternAnalysis&MachineIntelligence,2017,PP(99):1-1.[3]GülerRA,NeverovaN,KokkinosI.DensePose:DenseHumanPoseEstimationInTheWild[J].2018.[4]LinTY,Dollár,Piotr,GirshickR,etal.FeaturePyramidNetworksforObjectDetection[J].2016.[5]RenS,HeK,GirshickR,etal.FasterR-CNN:towardsreal-timeobjectdetectionwithregionproposalnetworks[J].2015.[6]NewellA,YangK,JiaD.StackedHourglassNetworksforHumanPoseEstimation[J].2016.[7]Güler,R1zaAlp,TrigeorgisG,AntonakosE,etal.DenseReg:FullyConvolutionalDenseShapeRegressionIn-the-Wild[J].2016.
技术实现思路
本专利技术所要解决的技术问题是:提供一种基于掩码-RCNN进行稠密人体姿态估计的系统及方法,解决传统技术在实例分割时,存在的由于目标检测框包含多个目标而无法精准进行稠密人体姿态估计的问题。本专利技术解决上述技术问题所采用的技术方案是:基于掩码-RCNN进行稠密人体姿态估计的系统,包括:目标检测模块,用于获取精确的目标检测框,其包括两个串行的均包括1024个通道的全连接层以及紧接的两个并行的分别包括2个通道的和8个通道的全连接层;语义分割模块,用于对目标检测框的检测对象进行语义分割,获得语义分割掩码,其包括用于产生一个特征图的4个连续的3*3卷积层以及用于对产生的特征图进行线性上采样的两个4*4反卷积层,在两个4*4反卷积层后还连接有用于调整上采样得到的热力图的通道数的维度分别为3*3和1*1的两个卷积层;实例分割模块,用于对语义分割掩码进行处理获得人体实例分割掩码,其包括4个连续的3*3卷积层以及紧接的上采样模块,所述上采样模块包括两个4*4反卷积层;稠密姿态估计模块,用于建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D人体表面模型上的UV坐标,从而将RGB图像上的纹理信息映射到3D人体表面模型上;其包括8个串行的3*3卷积层以及3个并行的输出部件,所述3个并行的输出部件分别用于输出3D人体部件的索引,3D人体部件上的U坐标和V坐标。作为进一步优化,所述目标检测模块以小特征图作为输入,所述小特征图的获取方法为:采用特征金字塔网络结构作为基本网络,从输入图片中提取出一个特征图,输入到感兴趣区排列池化层中,通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图。作为进一步优化,所述通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图具体包括:在感兴趣区映射到特征图后,将候选区域分割成n*n个单元,在每个单元上固定4个点,分别用双线性插值计算出每个点的位置,然后再进行最大池化操作。作为进一步优化,所述目标检测模块,在训练时分别使用一个像素级别的交叉熵损失函数用于对人的分类以及使用一个SmoothL1Loss函数(平滑的L1损失函数)用于目标检测框的回归计算。作为进一步优化,所述语义分割模块,在训练时通过定义语义分割损失函数通过将图片中所有的人当成前景来对整个网络进行中继监督,最后输出语义分割掩码。作为进一步优化,所述实例分割模块,在训练时分别最小化两个像素级别的交叉熵函数损失函数得到语义分割掩码和实例分割掩码,其中实例分割损失函数把语义分割掩码中指定的人当成前景,其他人当成背景,分别生成人体实例分割掩码。作为进一步优化,所述稠密姿态估计模块,在训练时使用像素级交叉熵损失函数进行部件分类来得到3D人体部件索引,并训练两个平滑的SmoothL1Loss函数得到U坐标和V坐标。此外,本专利技术还提供了一种应用于上述系统中的基于掩码-RCNN进行稠密人体姿态估计的方法,其包括以下步骤:a.从输入图片中提取出一个特征图,输入到感兴趣区排列池化层中,通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图;b.将所述低维度的小特征图输入至目标检测模块,获取精确的目标检测框;c.语义分割模块对目标检测框的检测对象进行语义分割,获得语义分割掩码;d.实例分割模块对语义分割掩码进行处理获得人体实例分割掩码;e.稠密姿态估计模块建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D模型上的UV坐标,然后将人体实例分割掩码和人体部件索引以及UV坐标进行结合获得3D人体表面模型的表面坐标。作为进一步优化,步骤a中,所述通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图具体包括:在感兴趣区映射到特征图后,将候选区域分割成n*n个单元,在每个单元上固定4个点,分别用双线性插值计算出每个点的位置,然后再进行最大池化操作。作为进一步优化,步骤e中,所述稠密姿态估计模块建立RGB图像与3D人体表面模型的关系,并输出人体部件索引和3D模型上的UV坐标具体包括:将人体结构分为24个独立的部件,并使用局部二维坐标系对每个部件进行参数化:首先,将一个像素点归类为背景或者24个3D人体部件中的一个,进行初步粗略的像素点位置估计;然后,利用两个SmoothL1Loss函数回归得到每个部件中像素点的确切UV坐标,如果像素点在某个人体部件中,则仅考虑该部件的回归损失。本专利技术的有益效果是:(1)在原始DensePose-RCNN结构基础上运用了级联思想,有效地建立了一个RGB图像与3D人体表面模型的关系,本文档来自技高网
...

【技术保护点】
1.基于掩码‑RCNN进行稠密人体姿态估计的系统,其特征在于,包括:目标检测模块,用于获取精确的目标检测框,其包括两个串行的均包括1024个通道的全连接层以及紧接的两个并行的分别包括2个通道的和8个通道的全连接层;语义分割模块,用于对目标检测框的检测对象进行语义分割,获得语义分割掩码,其包括用于产生一个特征图的4个连续的3*3卷积层以及用于对产生的特征图进行线性上采样的两个4*4反卷积层,在两个4*4反卷积层后还连接有用于调整上采样得到的热力图的通道数的维度分别为3*3和1*1的两个卷积层;实例分割模块,用于对语义分割掩码进行处理获得人体实例分割掩码,其包括4个连续的3*3卷积层以及紧接的上采样模块,所述上采样模块包括两个4*4反卷积层;稠密姿态估计模块,用于建立RGB图像与3D人体表面模型的关系,并输出3D人体部件索引和3D人体表面模型上的UV坐标,从而将RGB图像上的纹理信息映射到3D人体表面模型上;其包括8个串行的3*3卷积层以及3个并行的输出部件,所述3个并行的输出部件分别用于输出3D人体部件的索引,3D人体部件上的U坐标和V坐标。

【技术特征摘要】
1.基于掩码-RCNN进行稠密人体姿态估计的系统,其特征在于,包括:目标检测模块,用于获取精确的目标检测框,其包括两个串行的均包括1024个通道的全连接层以及紧接的两个并行的分别包括2个通道的和8个通道的全连接层;语义分割模块,用于对目标检测框的检测对象进行语义分割,获得语义分割掩码,其包括用于产生一个特征图的4个连续的3*3卷积层以及用于对产生的特征图进行线性上采样的两个4*4反卷积层,在两个4*4反卷积层后还连接有用于调整上采样得到的热力图的通道数的维度分别为3*3和1*1的两个卷积层;实例分割模块,用于对语义分割掩码进行处理获得人体实例分割掩码,其包括4个连续的3*3卷积层以及紧接的上采样模块,所述上采样模块包括两个4*4反卷积层;稠密姿态估计模块,用于建立RGB图像与3D人体表面模型的关系,并输出3D人体部件索引和3D人体表面模型上的UV坐标,从而将RGB图像上的纹理信息映射到3D人体表面模型上;其包括8个串行的3*3卷积层以及3个并行的输出部件,所述3个并行的输出部件分别用于输出3D人体部件的索引,3D人体部件上的U坐标和V坐标。2.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统,其特征在于,所述目标检测模块以小特征图作为输入,所述小特征图的获取方法为:采用特征金字塔网络结构作为基本网络,从输入图片中提取出一个特征图,输入到感兴趣区排列池化层中,通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图。3.如权利要求2所述的基于掩码-RCNN进行稠密人体姿态估计的系统,其特征在于,所述通过池化操作从特征图中的感兴趣区域提取出低维度的小特征图具体包括:在感兴趣区映射到特征图后,将候选区域分割成n*n个单元,在每个单元上固定4个点,分别用双线性插值计算出每个点的位置,然后再进行最大池化操作。4.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统,其特征在于,所述目标检测模块,在训练时分别使用一个像素级别的交叉熵损失函数用于对人的分类以及使用一个SmoothL1Loss函数用于目标检测框的回归计算。5.如权利要求1所述的基于掩码-RCNN进行稠密人体姿态估计的系统,其特征在于,所述语义分割模块,在训练时通过定义语义分割损失函数通过将图片中所有的人当成前景来对整个网络进行中继监督,最后输...

【专利技术属性】
技术研发人员:高联丽黄梓杰宋井宽
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1