一种基于人体特征分布的行人解析方法技术

技术编号:19009464 阅读:37 留言:0更新日期:2018-09-22 09:17
本发明专利技术涉及一种基于人体特征分布的行人解析方法,从人体特征分布的角度出发,提出了一种智能的融合人体特征分布模型和自监督结构敏感学习策略的行人解析方法。以自监督结构敏感学习方法为底层框架,首先,通过超像素分割的方法产生候选区域,对每个区域提取颜色和纹理特征建立表象模型,然后再利用高斯函数建立面积比例模型,最后通过将两个模型叠加得到总的人体特征分布模型。并将解析损失函数、关节结构损失函数和人体特征分布模型的特征分布损失函数相叠加的得到最终的损失函数。本发明专利技术利用自监督结构敏感学习方法使得生成的解析结果在语义上与人体的结构具有很强的一致性,更符合人体特征分布的特性,并且对遮挡,视角,复杂背景具有不变性。

Pedestrian analysis method based on human characteristics distribution

The present invention relates to a pedestrian analysis method based on human feature distribution. From the point of view of human feature distribution, an intelligent pedestrian analysis method combining human feature distribution model and self-supervised structure sensitive learning strategy is proposed. In this paper, the self-supervised structure-sensitive learning method is used as the underlying framework. Firstly, candidate regions are generated by super-pixel segmentation, and the color and texture features are extracted from each region to establish a representation model. Then, the area-ratio model is established by using Gaussian function. Finally, the total human feature distribution model is obtained by superimposing the two models. Type. The final loss function is obtained by superimposing the analytic loss function, the joint structure loss function and the characteristic distribution loss function of the human body characteristic distribution model. The self-supervised structure sensitive learning method is used to make the generated analytical results semantically consistent with the structure of the human body, more in line with the characteristics of the distribution of human characteristics, and invariant to occlusion, visual angle and complex background.

【技术实现步骤摘要】
一种基于人体特征分布的行人解析方法
本专利技术属于图像行人解析
,以自监督结构敏感学习方法(Self-supervisedStructure-sensitiveLearningapproach)为底层框架,融合符合人体特征分布的人体特征分布模型进行人体解析。该模型首先利用超像素分割方法产生候选区域,然后计算候选区域与数据集中人体特征分布模型的相似得分,从而得到人体各部件关节点的语义标签。本专利技术不仅利用自监督结构敏感学习方法使得生成的解析结果在语义上与人体的结构具有很强的一致性,而且由于引入人体特征分布模型,具有更符合人体特征分布的特性,对遮挡、视角变化和复杂背景具有不变性。
技术介绍
随着科技的发展和人类生活智能化的提高,智能服务机器人逐渐进入到人类生产生活中,并且被广泛地应用到了各个行业。机器人服务人类时,需要建立对服务本体的认知与理解。行人解析是服务机器人对人类最重要的认知方式之一,直接影响机器人智能化水平的发挥,也是完善人机交互的基础。为了使机器人能够准确的完成诸如送餐、握手等交互操作,服务机器人的视觉感知系统不仅需要识别出行人的位置和类别属性,还有需要提供更具体的行人语义部件(如头、躯干、手臂、腿、脚等)信息,因此,需要研究行人解析方法,进而使机器人能够理解人类的行为。实际应用场景中,由于存在如光照变化、局部遮挡、姿态变化、视角变化等复杂因素,因此,行人解析任务具有很高的难度。近年来,行人解析获得了越来越多学者的关注。现有的行人解析大多基于分割、姿态估计和自下而上的区域产生式的方法。例如,2012年,Yamaguchi[1]等人提出将姿态估计和行人解析相结合的方法进行解析,同时采用基于检索的方法对结果进行微调,取得了较好的性能。与大多数把人体姿态估计问题作为行人解析的前提所不同的是,2013年Dong[2]等人提出了一种解析部件表达方法(Parseletrepresentation),将人体划分为不同的语义区域,然后建立一个可变形的混合解析模型(DMPM,DeformableMixtureParsingModel)。该模型有两个特点:(1)被划分的语义区域可以组合成与或(And-Or)形式的树形结构;(2)对树形结构的叶节点的可见属性(visibilityproperty)进行建模,可以解决Parselet存在的遮挡问题。然而,上述传统的方法通常需要手动设计复杂预处理步骤(如姿态估计、模板字典学习等),导致行人解析运行效率和准确率的降低。随着目前深度学习的发展,尤其是卷积神经网络在图像识别领域中取得的优异性能,卷积神经网络被广泛应用到机器视觉领域中。2015年,Liang[3]等人提出一种上下文卷积神经网络结构(Co-CNN,ContextualizedConvolutionalNeuralNetwork),将交叉层上下文信息(cross-layercontext)、全局图像级上下文信息(globalimage-levelcontext)、以及相邻超像素上下文信息(cross-super-pixelneighborhoodcontext)加入到网络中,实现了端到端的像素级分类。该方法能有效提高分割精度,但其设计也容易导致局部最优。2017年,Gong[4]等人提出一种自监督结构敏感学习的行人解析方法,利用丰富的关节结构信息来监督行人解析。针对姿态估计中关节点的定义和行人解析中关节定义的不一致性,作者定义了9种关节结构并提出直接从标注的解析数据集中产生近似的关节标签,最后利用结构敏感损失函数评估预测的关节结构和标签关节结构的一致性。这种自监督的框架具有一定的普适性,可以应用在任何的网络结构中,但没有充分考虑相同对象不同语义部件之间的分布关系。本专利技术旨在提出一种融合人体特征分布和关节结构信息的行人解析方法,以自监督结构敏感学习方法为底层框架,融合符合人体特征分布的模型进行人体解析。人体特征分布模型充分考虑了相同部件的分布关系和部件间的分布关系,包含2个主要部分:一是基于颜色和纹理特征的表象模型,二是基于关节点面积和人体总面积的面积比例模型。参考文献:1.YamaguchiK,KiapourMH,OrtizLE,etal.Parsingclothinginfashionphotographs[C]//ComputerVisionandPatternRecognition.IEEE,2012:3570-3577.2.DongJ,ChenQ,XiaW,etal.ADeformableMixtureParsingModelwithParselets[C]//IEEEInternationalConferenceonComputerVision.IEEE,2014:3408-3415.3.LiangX,XuC,ShenX,etal.HumanParsingwithContextualizedConvolutionalNeuralNetwork[C]//IEEEInternationalConferenceonComputerVision.IEEE,2015:1386-1394.4.KeGong,XiaodanLiang,DongyuZhang,etal.LookintoPerson:Self-SupervisedStructure-SensitiveLearningandaNewBenchmarkforHumanParsing[J].2017:6757-6765.
技术实现思路
行人解析旨在将行人图像进行细粒度的分割,得到不同人体部件的语义信息。该技术可以广泛应用于图像检索、行人再识别、人体行为分析等领域。然而由于真实场景中不可避免地存在诸如光照变化、局部遮挡、姿态变化、视角变化等复杂因素,导致行人解析研究具有挑战性。本专利技术提出了一种融合人体特征分布和关节结构信息的行人解析方法,以自监督结构敏感学习方法为底层框架,融合符合人体特征分布的人体特征分布模型进行人体解析。利用颜色和纹理特征建立表象模型,利用各个部件面积关系建立面积比例模型,形成最终的人体特征分布模型。本专利技术方法充分考虑了人体特征分布的关系,增强了预测结果和实际人体特征分布关系的一致性,在一定程度上克服了遮挡、光照和姿态变化的影响。此外,该专利技术采用Penn-Fudan数据集训练改进后的行人解析网络,该数据集中共有169张行人图像,9个部件标签,分别是头发、人脸、上衣、下衣、左臂、右臂、左腿、右腿、左脚和右脚。本专利技术是采用以下技术手段实现的:一种基于人体特征分布的行人解析方法,其特征在于,包括如下步骤:步骤1:数据预处理将训练集中图像作为输入图像,对输入图像进行预处理,即对输入图像进行多尺度变换、水平翻转和随机裁剪,得到预处理过的训练集。步骤2:训练基础人体解析网络步骤2.1:使用深度残差网络ResNet-101作为基础人体解析网络,其中包括卷积层,池化层和全连接层,共101层。将由步骤1得到的预处理过的训练集作为卷积神经网络的输入,训练卷积神经网络,进而对卷积神经网络的网络结构文件和网络参数配置文件进行修改,并产生初始的行人解析结果。步骤2.2:使用softmax计算解析损失函数:其中,Lparse为解析损失函数,为深度残差网络模型参数本文档来自技高网
...
一种基于人体特征分布的行人解析方法

【技术保护点】
1.一种基于人体特征分布的行人解析方法,其特征在于,包括如下步骤:步骤1:数据预处理将训练集中图像作为输入图像,对输入图像进行预处理,即对输入图像进行多尺度变换、水平翻转和随机裁剪,得到预处理过的训练集;步骤2:训练基础人体解析网络步骤2.1:使用深度残差网络ResNet‑101作为基础人体解析网络,其中包括卷积层,池化层和全连接层,共101层;将由步骤1得到的预处理过的训练集作为卷积神经网络的输入,训练卷积神经网络,进而对卷积神经网络的网络结构文件和网络参数配置文件进行修改,并产生初始的行人解析结果;步骤2.2:使用softmax计算解析损失函数:

【技术特征摘要】
1.一种基于人体特征分布的行人解析方法,其特征在于,包括如下步骤:步骤1:数据预处理将训练集中图像作为输入图像,对输入图像进行预处理,即对输入图像进行多尺度变换、水平翻转和随机裁剪,得到预处理过的训练集;步骤2:训练基础人体解析网络步骤2.1:使用深度残差网络ResNet-101作为基础人体解析网络,其中包括卷积层,池化层和全连接层,共101层;将由步骤1得到的预处理过的训练集作为卷积神经网络的输入,训练卷积神经网络,进而对卷积神经网络的网络结构文件和网络参数配置文件进行修改,并产生初始的行人解析结果;步骤2.2:使用softmax计算解析损失函数:其中,Lparse为解析损失函数,为深度残差网络模型参数,x为深度特征,K为关节点类别数;此处,K=9;步骤3:计算关节结构损失函数步骤3.1:定义9个关节点,分别为头部、上身、左臂、右臂、下身、左腿、右腿、左脚和右脚,并定义如下关节点列表:其中,为步骤2的初始解析结果所对应的第i个关节点,是步骤1中训练数集的标签图像对应的第i个关节点,I为输入图像;步骤3.2:计算关节结构损失函数为表示预测的解析结果对应关节点和训练集中标签图像对应的9个关节点的差值的均值;差值越大,预测越不准确;差值越小,预测越准确,此处K=9;步骤4:构建人体特征分布模型首先利用超像素分割方法将人体分割成大小不同的候选区域,然后分别对每个区域建立表象模型和面积比例模型;步骤4.1:基于超像素分割方法产生人体候选区域步骤4.1.1:按照设定的超像素个数,在图像内均匀分配种子点;假设图像中共有M个像素点,预分割为N个相同尺寸的超像素,则每个超像素的大小为M/N,则相邻种子点的距离近似为S=sqrt(M/N);步骤4.1.2:在种子点的S*S邻域内,计算该邻域内所有像素点的梯度值,将种子点移到该邻域内梯度最小的地方;对该种子点所在邻域内的每个像素点,分别计算它与各种子点的颜色距离和空间距离,并取距离最小的为该像素点的聚类中心;步骤4.1.3:对步骤4.1.2进行15次以上的迭代,得到最终的聚类中心和候选区域;步骤4.2:建立表象概率模型步骤4.2.1:对每个候...

【专利技术属性】
技术研发人员:杨金福张京玲王美杰李明爱许兵兵
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1