一种基于深度递归分层条件随机场的人体行为识别方法技术

技术编号:13284451 阅读:61 留言:0更新日期:2016-07-09 01:18
本发明专利技术公开了一种基于深度递归分层条件随机场的人体行为识别方法,首先,分别提取由RGB‑D摄像机拍摄行为动作场景的RGB‑D视频中行为动作主体的人体姿态和可能与其相互交互的物体信息,将这两种信息作为深度递归分层条件随机场的中间层状态,建模预测输出目标状态层中当前状态和当前所有已发生的预测输出状态集合的相关性,构建深度递归分层条件随机场模型;其次,采用BCFW优化方法驱动的结构化支持向量机分类器学习关于人体行为序列的判别分类模型;最后,根据学习得到的模型参数和即得判别模型预测待测试的人体行为序列的类别。本发明专利技术对行为动作具有显著的鲁棒性,在一定程度上提高了人体行为动作的识别准确度。

【技术实现步骤摘要】
一种基于深度递归分层条件随机场的人体行为识别方法
本专利技术涉及一种人体行为识别方法,尤其涉及一种基于深度递归分层条件随机场(DeepRecursiveandHierarchicalConditionalRandomFields,DR-HCRFs)的人体行为识别方法,属于计算机视觉行为识别

技术介绍
人体行为识别在计算机视觉中具有举足轻重的位置,在智能监控、人机交互和体育视频处理等领域中有着广泛的应用。近几年,针对室内场景的行为识别研究主要使用概率图模型的方法对人物行为进行分类解析。常见的概率图模型主要分为两种结构:生成模型和判决模型。常见的生成模型有:隐马尔可夫模型(HiddenMarkovModel)、贝叶斯网络(DBNs)、半马尔可夫模型(Semi-MarkovModels)。生成模型需要对先验信息的分布和相关性进行建模,当输入的变量之间存在较为复杂的相关性时,联合分布的建模将变得复杂甚至不准确。相反使用判决模型对条件概率建模,可以衍生出准确而有效的推断。例如:隐条件随机场(HiddenCRFs)、环状条件随机场(LoopyCRFs)。此外,现有的行为识别研究侧重于在原有技术上加入语义上下文信息,例如物体与行为、行为与行为的上下文信息。通过实验证明这些语义信息能够作为判别模型中的隐状态提高行为识别的准确度。O.Sener和A.Saxena.rCRF于2015年在RSS上发表的《recursivebeliefestimationoverCRFsinRGB-Dactivityvideos》,从RGB视频中提取人体姿态特征和物体启示信息,通过加入递归贝叶斯估计的条件随机场模型计算出人体行为之间的信赖关系。Y.Jiang、H.S.Koppula和A.Saxena于2015年在PAMI上发表的《Modeling3Denvironmentsthroughhiddenhumancontext》,提出了一种无穷隐状态的条件随机场模型,对3D环境中大量人体姿势和交互物体的处理具有显著的作用。S.P.Chatzis和Y.Demiris于2013年在PAMI上发表的《Theinfinite-orderconditionalrandomfieldmodelforsequentialdatamodeling》,提出了一种无穷阶条件随机场对序列化数据建模,同时使用了一种序列记忆(sequencememorizer)的方法建模标签序列中无穷阶的相关性。上述现有的基于概率图模型的行为识别方法,都未曾同时考虑目标状态的内部表示和状态之间的高阶相关性,仍然存在识别准确率低的问题。
技术实现思路
本专利技术所要解决的技术问题是:提供一种基于深度递归分层条件随机场的人体行为识别方法,将人体姿态和交互物体作为预测目标状态的中间表示状态,构建一个包含输入数据、中间状态和目标预测状态的深度递归分层条件随机场模型。本专利技术为解决上述技术问题采用以下技术方案:一种基于深度递归分层条件随机场的人体行为识别方法,包括如下步骤:步骤1,获取人体行为的RGB-D训练视频样本,该RGB-D训练视频样本包括RGB视频信息、深度信息和人体骨架信息,联合RGB视频信息和人体骨架信息,并从中提取人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征,将上述特征串联后得到行为表示特征;步骤2,根据步骤1得到的行为表示特征,构建当前视频段中行为表示特征、人体姿态和交互物体组成的中间状态、行为预测标签三部分链接而成的全连通概率图模型,结合训练视频样本中第一个视频段到当前视频段的前一个视频段的行为预测标签,建立当前视频段的深度递归分层条件随机场模型;步骤3,利用平均场近似算法,将步骤2建立的深度递归分层条件随机场模型转换为一阶线性链条件随机场模型;步骤4,利用最大-间隔算法,学习步骤3得到的一阶线性链条件随机场模型的参数;步骤5,根据步骤3得到的一阶线性链条件随机场模型和步骤4学习得到的参数,识别测试视频样本对应的行为预测标签。优选的,所述深度递归分层条件随机场模型的势能函数Ψ(y,h,o,x;ω)为:其中,t=1,…,T表示训练视频样本的第t个视频段,ω1、ω2、ω3、ω4均表示模型的参数,ht、ot、yt分别表示第t个视频段的人体姿态、交互物体、行为预测标签;表示xt和ht、ot的依赖性,φ(xt)表示第t个视频段中的行为表示特征xt到特征空间的映射函数;表示ht和ot之间的相关性,表示交互物体s在第t视频段中是否出现在行为过程中,表示第t视频段中所有交互物体的集合,S表示训练视频样本中所有交互物体的集合;ω3(yt,ht,ot)表示yt和ht、ot的耦合性;表示历史集合与yt的相关性。优选的,所述步骤3的具体过程为:找出当前视频段的最优行为预测标签,所述最优行为预测标签可表示为:其中,表示训练视频样本的第1个视频段到第t-2个视频段的最优行为预测标签,v、u均表示候选行为预测标签集合Y={1,...V}中的候选行为预测标签,V表示组成集合Y的候选行为预测标签的总个数。优选的,所述参数的计算表达式为:其中,λ表示均衡权重值,ω表示模型的参数,表示第i个训练视频样本的最优行为预测标签,N表示训练视频样本的总个数,表示第i个训练视频样本的最优行为预测标签和实际行为标签yi差异的损失函数。优选的,步骤1所述获取人体行为的RGB-D训练视频样本的工具为Kinect深度传感器。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:本专利技术基于深度递归分层条件随机场的人体行为识别方法,在建模时引入并增加了当前行为动作相关因素内部的中间结构和既往行为动作之间的高阶相关性,对行为动作过程中包含的人体外形差异、复杂场景和交互物体等都具有显著的鲁棒性,在一定程度上能提高人体行为动作的识别准确度。附图说明图1是本专利技术提出的深度递归分层条件随机场的示意图。图2是本专利技术基于深度递归分层条件随机场的人体行为识别方法的流程图。具体实施方式下面详细描述本专利技术的实施方式,所述实施方式的示例在附图中示出。下面通过参考附图描述的实施方式是示例性的,仅用于解释本专利技术,而不能解释为对本专利技术的限制。本专利技术基于深度递归分层条件随机场的人体行为识别方法的具体流程如图2所示,具体按照以下步骤:步骤1、使用Kinect深度传感器捕获人体行为的RGB-D视频序列,通过获取得到所摄场景的深度信息,以提取出行为动作主体人的人体骨架结构信息,并联合人体骨架和RGB视频序列两种数据源,提取其中人体姿态特征、交互物体的形状和位置特征,以及人体和物体的相对位置信息,并串联这些信息表示,组合形成最终观测到的行为表示特征,并作为后续的输入。步骤2、根据即得输入的行为表示特征,构建由输入观测数据xt至人体姿态ht和交互物体ot组成的中间状态、以及最终行为预测标签yt三部分链接而成的全连通概率图模型,建立相应的深度递归分层条件随机场模型。针对输入观测数据x,其对应的行为标签为y的概率可以表示为如下目标函数:其中,Ψ(y,h,o,x;ω)深度递归分层条件随机场模型的势能函数,衡量输入观测数据x,中间层中人体姿态h和交互物体o,以及行为预测标签y之间的相关性,ω为模型参数。势能函数Ψ(y,h,o,x;ω)包含四个组本文档来自技高网
...

【技术保护点】
一种基于深度递归分层条件随机场的人体行为识别方法,其特征在于,包括如下步骤:步骤1,获取人体行为的RGB‑D训练视频样本,该RGB‑D训练视频样本包括RGB视频信息、深度信息和人体骨架信息,联合RGB视频信息和人体骨架信息,并从中提取人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征,将上述特征串联后得到行为表示特征;步骤2,根据步骤1得到的行为表示特征,构建当前视频段中行为表示特征、人体姿态和交互物体组成的中间状态、行为预测标签三部分链接而成的全连通概率图模型,结合训练视频样本中第一个视频段到当前视频段的前一个视频段的行为预测标签,建立当前视频段的深度递归分层条件随机场模型;步骤3,利用平均场近似算法,将步骤2建立的深度递归分层条件随机场模型转换为一阶线性链条件随机场模型;步骤4,利用最大‑间隔算法,学习步骤3得到的一阶线性链条件随机场模型的参数;步骤5,根据步骤3得到的一阶线性链条件随机场模型和步骤4学习得到的参数,识别测试视频样本对应的行为预测标签。

【技术特征摘要】
1.一种基于深度递归分层条件随机场的人体行为识别方法,其特征在于,包括如下步骤:步骤1,获取人体行为的RGB-D训练视频样本,该RGB-D训练视频样本包括RGB视频信息、深度信息和人体骨架信息,联合RGB视频信息和人体骨架信息,并从中提取人体姿态特征、交互物体的形状和位置特征,以及人体和交互物体的相对位置特征,将上述特征串联后得到行为表示特征;步骤2,根据步骤1得到的行为表示特征,构建当前视频段中行为表示特征、人体姿态和交互物体组成的中间状态、行为预测标签三部分链接而成的全连通概率图模型,结合训练视频样本中第一个视频段到当前视频段的前一个视频段的行为预测标签,建立当前视频段的深度递归分层条件随机场模型;步骤3,利用平均场近似算法,将步骤2建立的深度递归分层条件随机场模型转换为一阶线性链条件随机场模型;步骤4,利用最大-间隔算法,学习步骤3得到的一阶线性链条件随机场模型的参数;步骤5,根据步骤3得到的一阶线性链条件随机场模型和步骤4学习得到的参数,识别测试视频样本对应的行为预测标签。2.如权利要求1所述基于深度递归分层条件随机场的人体行为识别方法,其特征在于,所述深度递归分层条件随机场模型的势能函数Ψ(y,h,o,x;ω)为:其中,t=1,…,T表示训练视频样本的第t个视频段,ω1、ω2、ω3、ω4均表示模型的参数,ht、ot、yt分别表示第t个视频段的人体姿态、交互物体、行为预测标签;表示xt和ht、ot的依赖性,φ(xt)表示第t个视频段中的行为表示特征xt到特征空间的映射函数;表示ht和ot之间的相关性,表示交互物体s在第t视频段中是否...

【专利技术属性】
技术研发人员:刘天亮王新城谯庆伟戴修斌罗杰波
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1