【技术实现步骤摘要】
一种基于隐变量的嵌入的群体行为识别方法
本专利技术属于计算机视觉
,特别涉及一种基于隐变量的嵌入的群体行为识别方法。
技术介绍
目前主要的群体行为识别方法主要是通过把视频中每个人之间的关系通过图模型进行刻画,其中每个人被当作图中的一个节点,从而进行基于图模型的推断。然而,一般的图模型都会利用节点与节点之间的联系进行图的刻画,这在群体行为识别中可以被视作是基于人与人之间的关系进行群体行为识别。一般的图模型都会利用节点与节点之间的联系进行图的刻画,这在群体行为识别中可以被视作是基于人与人之间的关系进行群体行为识别。基于人与人之间的关系的群体行为识别模型所刻画的关系主要是基于局部关系的模型。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于隐变量的嵌入的群体行为识别方法,本专利技术提出的模型能够很好地对群体行为进行描述与识别,并且在常用的群体行为识别研究数据集中获得了当前较优的识别结果。为了达到上述目的,本专利技术采用以下技术方案:本专利技术一种基于隐变量的嵌入的群体行为识别方法,包括下述步骤:S1、对于群体行为识别,利用数据集中提供的个体标注框进行个体图片分割,通过对图片中的个体特征进行双流卷积神经网络的特征提取,得到群体行为场景中每个个体的特征表达,同样通过双流卷积神经网络,以视频帧图片进行输入,得到当前群体行为场景下的特征表达;S2、构建隐变量嵌入模型,对具有节点和边的图模型利用隐嵌入的变量进行表征,从而使得每个节点嵌入特征具备与该节点相关节点的信息,对表征人与群体之间的关系进行隐变量嵌入,将迭代的参数更新方式展开成递归神经网 ...
【技术保护点】
1.一种基于隐变量的嵌入的群体行为识别方法,其特征在于,包括下述步骤:S1、对于群体行为识别,利用数据集中提供的个体标注框进行个体图片分割,通过对图片中的个体特征进行双流卷积神经网络的特征提取,得到群体行为场景中每个个体的特征表达,同样通过双流卷积神经网络,以视频帧图片进行输入,得到当前群体行为场景下的特征表达;S2、构建隐变量嵌入模型,对具有节点和边的图模型利用隐嵌入的变量进行表征,从而使得每个节点嵌入特征具备与该节点相关节点的信息,对表征人与群体之间的关系进行隐变量嵌入,将迭代的参数更新方式展开成递归神经网络,从而对视频中的每个个体进行关系建模,根据学习得到的隐变量进行群体行为识别;S3、基于隐变量嵌入模型的群体行为识别,通过构造一组隐变量,使其能够对于人与群体交互行为进行表达的特征,通过对个体外观和运动等信息进行编码,得到具有群体行为语义的中层隐变量表达,对于当前场景中的所有人,利用提出的隐变量嵌入模型分别对其进行人与群体交互关系的提取,并且对场景进行总体的群体行为隐变量表达,然后将隐变量通过特征嵌入的方法嵌入到语义特征空间,利用监督信号使得具有相近群体行为语义信息的隐变量在特征 ...
【技术特征摘要】
1.一种基于隐变量的嵌入的群体行为识别方法,其特征在于,包括下述步骤:S1、对于群体行为识别,利用数据集中提供的个体标注框进行个体图片分割,通过对图片中的个体特征进行双流卷积神经网络的特征提取,得到群体行为场景中每个个体的特征表达,同样通过双流卷积神经网络,以视频帧图片进行输入,得到当前群体行为场景下的特征表达;S2、构建隐变量嵌入模型,对具有节点和边的图模型利用隐嵌入的变量进行表征,从而使得每个节点嵌入特征具备与该节点相关节点的信息,对表征人与群体之间的关系进行隐变量嵌入,将迭代的参数更新方式展开成递归神经网络,从而对视频中的每个个体进行关系建模,根据学习得到的隐变量进行群体行为识别;S3、基于隐变量嵌入模型的群体行为识别,通过构造一组隐变量,使其能够对于人与群体交互行为进行表达的特征,通过对个体外观和运动等信息进行编码,得到具有群体行为语义的中层隐变量表达,对于当前场景中的所有人,利用提出的隐变量嵌入模型分别对其进行人与群体交互关系的提取,并且对场景进行总体的群体行为隐变量表达,然后将隐变量通过特征嵌入的方法嵌入到语义特征空间,利用监督信号使得具有相近群体行为语义信息的隐变量在特征空间中具有较近的距离,从而便于后续根据隐变量对群体行为进行分类和识别;S4、引入注意力机制对每个与当下群体行为有关的个体和场景信息进行特征嵌入,所述注意力机制是一种被验证过的,能够有效地提升序列学习任务效果的一种方法,在编解码器框架内,通过在编码段加入注意力机制,对编码段的源数据进行加权变换,或者在解码段引入注意力机制,从而对目标数据进行加权变换,有效地提高模型对信息的获取能力和筛选能力。2.根据权利要求1所述基于隐变量的嵌入的群体行为识别方法,其特征在于,步骤S1具体包括:S1.1、判断图片的类型;S1.1.1、当图片为RGB图片时,利用数据集中给定的个体标注框对每个人进行定位,并且根据标注框对每帧图片的个体进行图片抠取,经过对截取的图片进行大小变换成224×224×3,其中3为RGB通道数,将变换后的图片输入到双流卷积神经网络的RGB流卷积网络中进行特征提取;S1.1.2、当图片为光流图片时,首先将光流图片进行大小变换成224×224×1,然后将水平方向和垂直方向的光流图按照通道进行拼接成224×224×2,最后再将该帧的前后共十个时刻的光流图进行通道拼接,得到224×224×20的堆叠的光流图表达;S1.2、其中双流网络使用经过UCF101数据集预训练的50层残差卷积神经网络网络参数,特征取残差网络最后一个池化层的输出,特征维度为2048维;S1.3、最后通过将RGB通道和光流通道输出的特征进行拼接,最终得到每个个体4096维的外观及运动特征表达。3.根据权利要求1所述基于隐变量的嵌入的群体行为识别方法,其特征在于,步骤S2具体为:S3.1、通过将隐变量的后验概率进行特征空间的嵌入,将隐变量Hi的后验概率p(Hi|{Xi})利用特征图Φ(Hi)进行嵌入,有:目前先假设Φ(Hi)∈Rd是无限维特征空间,并且d的值可以通过交叉验证的方法确定;S3.2、需要对Hi中的所有变量计算积分,即有仅当图的结构为树时,上式可以通过信息传播算法进行计算;S3.3、从嵌入点的角度利用不动点方程对上式进行等价表达,即利用公式算子进行推导,有:对于平均场嵌入方法,函数和算子均与势能函数Φ和Ψ之前有复杂的非线性关系,并且特征映射函数φ需要从数据中学习得到;S3.4、通过利用神经网络进行参数化表示,并利用监督信息对其学习进行非线性关系的获得,假设其中d为超参数,对于算子通过下式的神经网络进行参数化表达:其中σ(·)∶=max{0,·}为线性整流函数,并记待学习参数为W={W1,W2,W3};因此,根据的表达式通过平均场迭代更新的方式对网络的参数进行估计,从而对图中的关系利用嵌入特征进行表达。4.根据权利要求1所述基于隐变量的嵌入的群体行为识别方法,其特征在于,步骤S3具体为:记每个可以观测...
【专利技术属性】
技术研发人员:郑伟诗,李本超,唐永毅,
申请(专利权)人:中山大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。