【技术实现步骤摘要】
基于上下文的多层次深度递归网络群体行为识别方法
本专利技术涉及的是一种群体行为识别
的方法,具体是一种基于上下文的多层次深度递归神经网络群体行为识别方法。
技术介绍
高阶交互语境建模,例如群体互动,是群体行为识别的核心。但是,绝大多数之前的行为识别方法没有提供灵活的、可扩展的方法来解决高阶语境建模问题。群体行为识别为包括场景中的角色理解、事件预测在内的许多实际应用提供了有用的信息。群体行为识别的主要挑战是对人群中的交互语境信息进行建模。这是因为在某个场景中包含的人物的数量经常是变化的。除此之外,在绝大多数情况下,群体行为和若干个子交互场景有联系,所以如何建模群体和群体之间的交互是很有挑战性的。之前的行为识别的方法主要集中于对一元特征进行建模,例如单个人的外形或者动态信息。但是,这些语境信息建模方法对于群体行为识别来说并不足够。这是因为对群体行为来说,不同的行为种类可能拥有相同的一元或者成对特征(例如,排队和讨论都具有“独自站着”这一特征,走路和通过路口都具有“朝着某个方向移动”这个特征)。也就是说,除了对群组内交互进行建模(例如,在一个人群中的人与人之间的交互)之外,如何能够有效地描述群体和群体之间的交互行为就显得非常重要。低阶的语境特征不能提供足够的线索来识别这些行为。为了解决这个基础性的问题,绝大多数已有的方法尝试把场景中人与人之间的高阶关系通过推断潜在的图形结构进行编码。但是,应用这些方法来进行群体行为识别是不够高效的,原因是这些方法在推断和学习的过程中,所使用的树状结构中经常需要很多的计算量。除此之外,泛化基于图形模型的方法来解决更高阶的交互 ...
【技术保护点】
1.一种基于上下文的多层次深度递归网络群体行为识别方法,其特征在于,包括:S1,基于上下文的二值化编码器,对人体的子动作信息进行编码,形成单人动态信息;S2,使用人体检测和追踪方法产生人的运动轨迹作为单个人体轨迹,将所有单个人体轨迹分成具有时空一致性的人体群组,并利用单人动态信息建立单人交互模型,并利用所述单人交互模型来对人体群组内部交互以及人体群组间交互进行建模;S3,训练多层次递归上下文编码网络,来学习单人动态信息与人体群组内部和人体群组间交互的特征,实现群体行为识别。
【技术特征摘要】
1.一种基于上下文的多层次深度递归网络群体行为识别方法,其特征在于,包括:S1,基于上下文的二值化编码器,对人体的子动作信息进行编码,形成单人动态信息;S2,使用人体检测和追踪方法产生人的运动轨迹作为单个人体轨迹,将所有单个人体轨迹分成具有时空一致性的人体群组,并利用单人动态信息建立单人交互模型,并利用所述单人交互模型来对人体群组内部交互以及人体群组间交互进行建模;S3,训练多层次递归上下文编码网络,来学习单人动态信息与人体群组内部和人体群组间交互的特征,实现群体行为识别。2.根据权利要求1所述的基于上下文的多层次深度递归网络群体行为识别方法,其特征在于,所述S2中,将视频中的所有单个人体轨迹组成若干人体群组,然后再利用单人动态信息建立单人交互模型分别对人体群组间交互和人体群组内部交互进行多层次递归上下文编码网络模型建模;将单个人体轨迹组成若干人体群组的方法,采用基于图分割的轨迹聚合方法,其中邻接图根据单个人体轨迹之间的相对空间距离和速度来进行构建。3.根据权利要求1所述的基于上下文的多层次深度递归网络群体行为识别方法,其特征在于,所述单人交互模型,其建模采用单人层次的上下文编码方法,包括如下步骤:步骤a,设单人层次的上下文编码方法中用到的数据,包括原始图像Ii和对应的光流图像使用FlowNet为每个帧生成光流图像,并根据每个人体边框分别对原始图像与光流图像提取DCNN特征,这两种特征串联后作为LSTM的输入特征X,然后应用LSTM来对某个人在时间上的动作变化进行编码;步骤b,定义X={x1,x2,…,xT}为LSTM输入特征的序列,xt是通过串联原始图像特征和流图像特征输入而融合的特征向量,输入到LSTM模型的第t个节点;LSTM每个节点相应的状态和输出定义为ht和ot;每个LSTM的节点包含三个门限和一个记忆单元,所述三个门限分别为输入门限i,输出门限o以及忘记门限f;步骤c,在每个时间戳,通过输入xt以及前一个节点的状态ht-1,LSTM的更新方法如下所示:it=σ(Wixt+Uiht-1+Vict-1+bi)ft=σ(Wfxt+Ufht-1+Vfct-1+bf)ct=ft⊙ct-1+it⊙tanh(Wcxt+Ucht-1+bc)ot=σ(Woxt+Uoht-1+Voct-1+bo)ht=ot⊙tanh(ct)其中,it表示当前时间戳t的融合后的输入隐藏特征,ft表示当前时间戳t的LSTM融合后的需要遗忘的隐藏特征,σ表示sigmoid函数,⊙表示元素乘法运算符;W、U、V矩阵分别表示权重矩阵,分别是对输入x、隐藏状态h、记忆单元c进行编码的参数;b表示偏置项;记忆单元ct是前面的记忆单元ct-1以及当前输入的加权组合,权重分别是忘记门限和输入门限的激活值;一方面,隐藏状态ht用于表示人在时间t表现的特定原子行动,另一方面,ht还包含该人从第一个时间戳到t时间戳的汇总的行动信息,即单人动态信息。4.根据权利要求3所述的基于上下文的多层次深度递归网络群体行为识别方法,其特征在于,所述人体群组内部交互,采用组内层次的上下文编码方法建模,包括如下步骤:步骤i,在获得单人动作信息后,其中i表示场景中的第i个人;使用上下文的二值化编码器把单人动态信息编码进来,包括人脸朝向信息与运动方向信息;获得编码后的单人特征向量步骤ii,定义为组内层次LSTM的输入特征序列,为步骤i获得的编码后的单人特征向量,i为场景中的第i个人,共N个人;输入到LSTM的第i个节点;步骤iii,在每个时间戳,通过输入以及前一个节点的状态ht-1,更新LSTM,最后经过LSTM编码获得表示组内行为的特征,即组内行为信息其中j表示场景中的第j组。5.根据权利要求4所述的基于上下文的多层次深度递归网络群体行为识别方法,其特征在于,所述人体群组间交互,采用组间以及场景层次的上下文编码方法建模,包括如下步骤:步骤I,在获得组内行为信息后,其中j表示场景中的第j组;使用上下文的二值化编码器把一组人的行为信息编码进来,包括人脸朝向信息与运动方向信息;获得编码后的组内特征向量步骤II,定义为组间层次LSTM的输入特征序列,为步骤I获得的编码后的组内...
【专利技术属性】
技术研发人员:倪冰冰,王敏思,徐奕,杨小康,
申请(专利权)人:上海交通大学,
类型:发明
国别省市:上海,31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。