基于上下文的多层次深度递归网络群体行为识别方法技术

技术编号:19426303 阅读:25 留言:0更新日期:2018-11-14 10:47
一种基于上下文的多层次深度递归网络群体行为识别方法,包括:步骤S1,基于上下文的二值化编码器,对子动作信息进行编码,形成单人动态信息;步骤S2,使用人体检测和追踪方法产生人的运动轨迹作为单个人体轨迹,将所有单个人体轨迹分成具有时空一致性的人体群组,并利用单人动态信息建立单人交互模型来对人体群组内部交互以及人体群组间交互进行建模;步骤S3,训练提出的多层次递归上下文编码网络,来学习单人动态信息与人体群组内部和人体群组间交互的特征。本发明专利技术所提出的方法对于识别群体行为很有效,对复杂环境下的人体检测具有鲁棒性,以及有足够高的灵活性来模拟高阶交互语境。

【技术实现步骤摘要】
基于上下文的多层次深度递归网络群体行为识别方法
本专利技术涉及的是一种群体行为识别
的方法,具体是一种基于上下文的多层次深度递归神经网络群体行为识别方法。
技术介绍
高阶交互语境建模,例如群体互动,是群体行为识别的核心。但是,绝大多数之前的行为识别方法没有提供灵活的、可扩展的方法来解决高阶语境建模问题。群体行为识别为包括场景中的角色理解、事件预测在内的许多实际应用提供了有用的信息。群体行为识别的主要挑战是对人群中的交互语境信息进行建模。这是因为在某个场景中包含的人物的数量经常是变化的。除此之外,在绝大多数情况下,群体行为和若干个子交互场景有联系,所以如何建模群体和群体之间的交互是很有挑战性的。之前的行为识别的方法主要集中于对一元特征进行建模,例如单个人的外形或者动态信息。但是,这些语境信息建模方法对于群体行为识别来说并不足够。这是因为对群体行为来说,不同的行为种类可能拥有相同的一元或者成对特征(例如,排队和讨论都具有“独自站着”这一特征,走路和通过路口都具有“朝着某个方向移动”这个特征)。也就是说,除了对群组内交互进行建模(例如,在一个人群中的人与人之间的交互)之外,如何能够有效地描述群体和群体之间的交互行为就显得非常重要。低阶的语境特征不能提供足够的线索来识别这些行为。为了解决这个基础性的问题,绝大多数已有的方法尝试把场景中人与人之间的高阶关系通过推断潜在的图形结构进行编码。但是,应用这些方法来进行群体行为识别是不够高效的,原因是这些方法在推断和学习的过程中,所使用的树状结构中经常需要很多的计算量。除此之外,泛化基于图形模型的方法来解决更高阶的交互语境问题是非常困难的。有研究人员提出了一个因果分析框架来编码一元的、成对的以及群体的交互特征。但是,这种方法只适合对人体轨迹这个层次的信息进行建模,而对于识别细粒度层面的行为(例如,只能由人体外形或身体某个部分的动态来识别的行为)是不足够的。目前一个基础性的问题是:如何系统地编码高阶人群交互语境,也就是说目标方法应该可以表现任意数量的相互作用的人或人群之间的语境特征,并且计算复杂度与上下文顺序相符的很好。而如何解决这个问题,成为本领域亟待解决的难题。
技术实现思路
针对现有技术中存在的上述不足,本专利技术的目的是是提供一种基于上下文的多层次深度递归网络群体行为识别方法,该方法是一种递归交互语境编码方法,是基于长短期记忆网络实现的。本专利技术提供的基于上下文的多层次深度递归网络群体行为识别方法,通过利用LSTM(长短期记忆网络)的信息传播、信息聚集的能力,联合了人与人之间、群体内部以及不同群体之间的交互特征建模过程。通过高阶语境建模方法产生了可辨别能力更强的交互特征。这对于解决输入实例特点多变(例如群体内的人物数量不同或者群体数量不同)的情况很有帮助,对高阶语境建模问题的线性拓展非常灵活,从根本上解决了现有行为识别方法没有提供灵活的、可扩展的方法来解决高阶语境建模这一瓶颈问题。本专利技术是通过以下技术方案实现的。一种基于上下文的多层次深度递归网络群体行为识别方法,包括:S1,基于上下文的二值化编码器,对人体的子动作信息进行编码,形成单人动态信息;S2,使用人体检测和追踪方法产生人的运动轨迹作为单个人体轨迹,将所有单个人体轨迹分成具有时空一致性的人体群组,并利用单人动态信息建立单人交互模型,并利用所述单人交互模型来对人体群组内部交互以及人体群组间交互进行建模;S3,训练多层次递归上下文编码网络,来学习单人动态信息与人体群组内部和人体群组间交互的特征,实现群体行为识别。优选地,所述S2中,将视频中的所有单个人体轨迹组成若干人体群组,然后再利用单人动态信息建立单人交互模型分别对人体群组间交互和人体群组内部交互进行多层次递归上下文编码网络模型建模。优选地,将单个人体轨迹组成若干人体群组的方法,采用基于图分割(GraphCut)的轨迹聚合方法,其中邻接图根据单个人体轨迹之间的相对空间距离和速度来进行构建。优选地,单人交互模型的建模方法(单人层次),采用单人层次的上下文编码方法,包括如下步骤:步骤a,设单人层次的上下文编码方法中用到得数据,包括原始图像Ii和对应的光流图像使用FlowNet为每个帧生成光流图像,并根据每个人体边框分别对原始图像与光流图像提取DCNN特征,作为LSTM的输入特征X,然后应用LSTM来对某个人在时间上的动作变化进行编码,;步骤b,定义X={x1,x2,…,xT}为LSTM输入特征的序列,xt是通过串联原始图像特征和流图像特征输入而融合的特征向量,输入到LSTM模型的第t个节点;LSTM每个节点相应的状态和输出定义为ht和ot;每个LSTM的节点包含三个门限和一个记忆单元,所述三个门限分别为输入门限i,输出门限o以及忘记门限f;步骤c,在每个时间戳,通过输入xt以及前一个节点的状态ht-1,LSTM的更新方法如下所示:it=σ(Wixt+Uiht-1+Vict-1+bi)ft=σ(Wfxt+Ufht-1+Vfct-1+bf)ct=ft⊙ct-1+it⊙tanh(Wcxt+Ucht-1+bc)ot=σ(Woxt+Uoht-1+Voct-1+bo)ht=ot⊙tanh(ct)其中,it表示当前时间戳t的融合后的输入隐藏特征,ft表示当前时间戳t的LSTM融合后的需要遗忘的隐藏特征,σ表示sigmoid函数,⊙表示元素乘法运算符;W、U、V矩阵分别表示权重矩阵,分别是对输入x、隐藏状态h、记忆单元c进行编码的参数;b表示偏置项;记忆单元ct是前面的记忆单元ct-1以及当前输入的加权组合,权重分别是忘记门限和输入门限的激活值;一方面,隐藏状态ht用于表示人在时间t表现的特定原子行动,另一方面,ht还包含该人从第一个时间戳到t时间戳的汇总的行动信息,即单人动态信息。优选地,人体群组内部交互模型的建模方法(组内层次),采用组内层次交互的上下文编码方法,包括如下步骤:步骤a,在获得单人动作信息后,其中i表示场景中的第i个人;使用上下文的二值化编码器(如图2所示)把单人动态信息编码进来,包括人脸朝向信息与运动方向信息;获得编码后的单人特征向量步骤b,定义为组内层次(grouplevel)LSTM的输入特征序列,为上一步骤i获得的编码后的单人特征向量,i为场景中的第i个人(共N个人);输入到LSTM的第i个节点。步骤c,在每个时间戳,通过输入以及前一个节点的状态ht-1,更新LSTM(更新方法与单人交互模型的建模方法中相同),最后经过LSTM编码获得表示组内行为的特征,即组内行为信息其中j表示场景中的第j组。优选地,人体群组间交互模型的建模方法(组间/场景层次),采用组间以及场景层次的上下文编码方法,包括如下步骤:步骤a,在获得组内行为信息后,其中j表示场景中的第j组;使用上下文的二值化编码器把一组人的行为信息编码进来,包括人脸朝向信息与运动方向信息;获得编码后的组内特征向量步骤b,定义为组间层次(scenelevel)LSTM的输入特征序列,为上一步骤获得的编码后的组内特征向量,j为场景中的第j组(共M组);输入到LSTM的第j个节点。步骤c,在每个时间戳,通过输入以及前一个节点的状态ht-1,更新LSTM(更新方法与单人交互模型的建模方法中相同),最后经过L本文档来自技高网
...

【技术保护点】
1.一种基于上下文的多层次深度递归网络群体行为识别方法,其特征在于,包括:S1,基于上下文的二值化编码器,对人体的子动作信息进行编码,形成单人动态信息;S2,使用人体检测和追踪方法产生人的运动轨迹作为单个人体轨迹,将所有单个人体轨迹分成具有时空一致性的人体群组,并利用单人动态信息建立单人交互模型,并利用所述单人交互模型来对人体群组内部交互以及人体群组间交互进行建模;S3,训练多层次递归上下文编码网络,来学习单人动态信息与人体群组内部和人体群组间交互的特征,实现群体行为识别。

【技术特征摘要】
1.一种基于上下文的多层次深度递归网络群体行为识别方法,其特征在于,包括:S1,基于上下文的二值化编码器,对人体的子动作信息进行编码,形成单人动态信息;S2,使用人体检测和追踪方法产生人的运动轨迹作为单个人体轨迹,将所有单个人体轨迹分成具有时空一致性的人体群组,并利用单人动态信息建立单人交互模型,并利用所述单人交互模型来对人体群组内部交互以及人体群组间交互进行建模;S3,训练多层次递归上下文编码网络,来学习单人动态信息与人体群组内部和人体群组间交互的特征,实现群体行为识别。2.根据权利要求1所述的基于上下文的多层次深度递归网络群体行为识别方法,其特征在于,所述S2中,将视频中的所有单个人体轨迹组成若干人体群组,然后再利用单人动态信息建立单人交互模型分别对人体群组间交互和人体群组内部交互进行多层次递归上下文编码网络模型建模;将单个人体轨迹组成若干人体群组的方法,采用基于图分割的轨迹聚合方法,其中邻接图根据单个人体轨迹之间的相对空间距离和速度来进行构建。3.根据权利要求1所述的基于上下文的多层次深度递归网络群体行为识别方法,其特征在于,所述单人交互模型,其建模采用单人层次的上下文编码方法,包括如下步骤:步骤a,设单人层次的上下文编码方法中用到的数据,包括原始图像Ii和对应的光流图像使用FlowNet为每个帧生成光流图像,并根据每个人体边框分别对原始图像与光流图像提取DCNN特征,这两种特征串联后作为LSTM的输入特征X,然后应用LSTM来对某个人在时间上的动作变化进行编码;步骤b,定义X={x1,x2,…,xT}为LSTM输入特征的序列,xt是通过串联原始图像特征和流图像特征输入而融合的特征向量,输入到LSTM模型的第t个节点;LSTM每个节点相应的状态和输出定义为ht和ot;每个LSTM的节点包含三个门限和一个记忆单元,所述三个门限分别为输入门限i,输出门限o以及忘记门限f;步骤c,在每个时间戳,通过输入xt以及前一个节点的状态ht-1,LSTM的更新方法如下所示:it=σ(Wixt+Uiht-1+Vict-1+bi)ft=σ(Wfxt+Ufht-1+Vfct-1+bf)ct=ft⊙ct-1+it⊙tanh(Wcxt+Ucht-1+bc)ot=σ(Woxt+Uoht-1+Voct-1+bo)ht=ot⊙tanh(ct)其中,it表示当前时间戳t的融合后的输入隐藏特征,ft表示当前时间戳t的LSTM融合后的需要遗忘的隐藏特征,σ表示sigmoid函数,⊙表示元素乘法运算符;W、U、V矩阵分别表示权重矩阵,分别是对输入x、隐藏状态h、记忆单元c进行编码的参数;b表示偏置项;记忆单元ct是前面的记忆单元ct-1以及当前输入的加权组合,权重分别是忘记门限和输入门限的激活值;一方面,隐藏状态ht用于表示人在时间t表现的特定原子行动,另一方面,ht还包含该人从第一个时间戳到t时间戳的汇总的行动信息,即单人动态信息。4.根据权利要求3所述的基于上下文的多层次深度递归网络群体行为识别方法,其特征在于,所述人体群组内部交互,采用组内层次的上下文编码方法建模,包括如下步骤:步骤i,在获得单人动作信息后,其中i表示场景中的第i个人;使用上下文的二值化编码器把单人动态信息编码进来,包括人脸朝向信息与运动方向信息;获得编码后的单人特征向量步骤ii,定义为组内层次LSTM的输入特征序列,为步骤i获得的编码后的单人特征向量,i为场景中的第i个人,共N个人;输入到LSTM的第i个节点;步骤iii,在每个时间戳,通过输入以及前一个节点的状态ht-1,更新LSTM,最后经过LSTM编码获得表示组内行为的特征,即组内行为信息其中j表示场景中的第j组。5.根据权利要求4所述的基于上下文的多层次深度递归网络群体行为识别方法,其特征在于,所述人体群组间交互,采用组间以及场景层次的上下文编码方法建模,包括如下步骤:步骤I,在获得组内行为信息后,其中j表示场景中的第j组;使用上下文的二值化编码器把一组人的行为信息编码进来,包括人脸朝向信息与运动方向信息;获得编码后的组内特征向量步骤II,定义为组间层次LSTM的输入特征序列,为步骤I获得的编码后的组内...

【专利技术属性】
技术研发人员:倪冰冰王敏思徐奕杨小康
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1