当前位置: 首页 > 专利查询>中山大学专利>正文

一种基于隐变量的嵌入的群体行为识别方法技术

技术编号:20160979 阅读:35 留言:0更新日期:2019-01-19 00:13
本发明专利技术公开了一种基于隐变量的嵌入的群体行为识别方法,包括下述步骤:S1、对于群体行为识别,利用数据集中提供的个体标注框进行个体图片分割;S2、构建隐变量嵌入模型,对具有节点和边的图模型利用隐嵌入的变量进行表征;S3、基于隐变量嵌入模型的群体行为识别,通过构造一组隐变量,使其能够对于人与群体交互行为进行表达的特征;S4、引入注意力机制对每个与当下群体行为有关的个体和场景信息进行特征嵌入,通过在编码段加入注意力机制,对编码段的源数据进行加权变换,从而对目标数据进行加权变换。本发明专利技术能够刻画更全局的群体行为特征,从而获得一个更加整体的群体行为描述进而完成识别任务。

【技术实现步骤摘要】
一种基于隐变量的嵌入的群体行为识别方法
本专利技术属于计算机视觉
,特别涉及一种基于隐变量的嵌入的群体行为识别方法。
技术介绍
目前主要的群体行为识别方法主要是通过把视频中每个人之间的关系通过图模型进行刻画,其中每个人被当作图中的一个节点,从而进行基于图模型的推断。然而,一般的图模型都会利用节点与节点之间的联系进行图的刻画,这在群体行为识别中可以被视作是基于人与人之间的关系进行群体行为识别。一般的图模型都会利用节点与节点之间的联系进行图的刻画,这在群体行为识别中可以被视作是基于人与人之间的关系进行群体行为识别。基于人与人之间的关系的群体行为识别模型所刻画的关系主要是基于局部关系的模型。
技术实现思路
本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于隐变量的嵌入的群体行为识别方法,本专利技术提出的模型能够很好地对群体行为进行描述与识别,并且在常用的群体行为识别研究数据集中获得了当前较优的识别结果。为了达到上述目的,本专利技术采用以下技术方案:本专利技术一种基于隐变量的嵌入的群体行为识别方法,包括下述步骤:S1、对于群体行为识别,利用数据集中提供的个体标注框进行个体图片分割,通过对图片中的个体特征进行双流卷积神经网络的特征提取,得到群体行为场景中每个个体的特征表达,同样通过双流卷积神经网络,以视频帧图片进行输入,得到当前群体行为场景下的特征表达;S2、构建隐变量嵌入模型,对具有节点和边的图模型利用隐嵌入的变量进行表征,从而使得每个节点嵌入特征具备与该节点相关节点的信息,对表征人与群体之间的关系进行隐变量嵌入,将迭代的参数更新方式展开成递归神经网络,从而对视频中的每个个体进行关系建模,根据学习得到的隐变量进行群体行为识别;S3、基于隐变量嵌入模型的群体行为识别,通过构造一组隐变量,使其能够对于人与群体交互行为进行表达的特征,通过对个体外观和运动等信息进行编码,得到具有群体行为语义的中层隐变量表达,对于当前场景中的所有人,利用提出的隐变量嵌入模型分别对其进行人与群体交互关系的提取,并且对场景进行总体的群体行为隐变量表达,然后将隐变量通过特征嵌入的方法嵌入到语义特征空间,利用监督信号使得具有相近群体行为语义信息的隐变量在特征空间中具有较近的距离,从而便于后续根据隐变量对群体行为进行分类和识别;S4、引入注意力机制对每个与当下群体行为有关的个体和场景信息进行特征嵌入,所述注意力机制是一种被验证过的,能够有效地提升序列学习任务效果的一种方法,在编解码器框架内,通过在编码段加入注意力机制,对编码段的源数据进行加权变换,或者在解码段引入注意力机制,从而对目标数据进行加权变换,有效地提高模型对信息的获取能力和筛选能力。作为优选的技术方案,步骤S1具体包括:S1.1、判断图片的类型;S1.1.1、当图片为RGB图片时,利用数据集中给定的个体标注框对每个人进行定位,并且根据标注框对每帧图片的个体进行图片抠取,经过对截取的图片进行大小变换成224×224×3,其中3为RGB通道数,将变换后的图片输入到双流卷积神经网络的RGB流卷积网络中进行特征提取;S1.1.2、当图片为光流图片时,首先将光流图片进行大小变换成224×224×1,然后将水平方向和垂直方向的光流图按照通道进行拼接成224×224×2,最后再将该帧的前后共十个时刻的光流图进行通道拼接,得到224×224×20的堆叠的光流图表达;S1.2、其中双流网络使用经过UCF101数据集预训练的50层残差卷积神经网络网络参数,特征取残差网络最后一个池化层的输出,特征维度为2048维;S1.3、最后通过将RGB通道和光流通道输出的特征进行拼接,最终得到每个个体4096维的外观及运动特征表达。作为优选的技术方案,步骤S2具体为:S3.1、通过将隐变量的后验概率进行特征空间的嵌入,将隐变量Hi的后验概率p(Hi|{Xi})利用特征图Φ(Hi)进行嵌入,有:目前先假设是无限维特征空间,并且d的值可以通过交叉验证的方法确定;S3.2、需要对Hi中的所有变量计算积分,即有仅当图的结构为树时,上式可以通过信息传播算法进行计算;S3.3、从嵌入点的角度利用不动点方程对上式进行等价表达,即利用公式μX算子进行推导,有:对于平均场嵌入方法,函数和算子均与势能函数Φ和Ψ之前有复杂的非线性关系,并且特征映射函数φ需要从数据中学习得到;S3.4、通过利用神经网络进行参数化表示,并利用监督信息对其学习进行非线性关系的获得,假设其中d为超参数,对于算子通过下式的神经网络进行参数化表达:其中σ(·)∶=max{0,·}为线性整流函数,并记待学习参数为W={W1,W2,W3};因此,根据的表达式通过平均场迭代更新的方式对网络的参数进行估计,从而对图中的关系利用嵌入特征进行表达。作为优选的技术方案,步骤S3具体为:记每个可以观测的个体变量和群体行为场景分别xi,i∈vp和xscene,利用其对应的隐变量hi,i∈vp和hscene,对每个观测变量的中层语义进行表示,该中层语义可以理解每个人在当前群体行为场景下的运动状态,其中vp为当前场景下的所有人;因此,根据每个独立的隐变量表达hi,通过利用人与群体的关系和上下文关系将每个独立变量的信息利用隐变量进行综合,综合后的隐变量能够表示人与群体交互的信息和群体行为场景信息;然后对当前场景下的所有个体建立一个每个节点均相互连接的无向图,然后对图中的每个节点进行条件后验概率表示。作为优选的技术方案,在群体行为识别的场景中,相互连接的无向图包含了两种语义关系:1)个体与群体之间的关系和2)个体与场景之间的关系;根据每个个体与群体之间和每个个体与场景之间的关系,每个个体的隐变量的后验概率可以表示其中Vp\i指当前场景下,除了第i个个体以外的所有个体;群体场景的隐变量的后验概率可以表示根据包含全局群体行为信息的场景隐变量hscene和每个个体包含局部群体行为信息的个体隐变量hi从中识别当前场景下发生的群体行为,因此群体行为的后验概率可表示为作为优选的技术方案,将多轮近似平均场嵌入过程利用递归神经网络进行改进,根据个体特征表示xi进行隐变量推断和特征嵌入,得到隐变量的嵌入特征hi嵌入特征经过多轮近似平均场过程后进行综合与群体行为分类,最终对场景下的群体行为进行识别;具体而言,首先记hi为隐变量hi嵌入到特征空间的表示,并且利用个体外观与运动特征xi除个体i以外所有人的平均外观与运动特征以及上一轮迭代得到的场景隐变量嵌入特征表达进行建模,因此,得到个体隐变量嵌入特征的更新表达式为:其中,[;]表示特征向量的垂直拼接,|vp|表示群体行为场景中个体的数目,σ(·)为线性整流函数(RectifiedLinearUnit,ReLU)和λ为个体隐变量嵌入特征更新的步长;类似地,是场景隐变量hscene的嵌入特征表达,通过利用全局图片特征xscene、当前场景下人的平均外观特征和人的嵌入特征的整合表达和对场景嵌入特征进行如下的表示:由于上式是对个体及其局部交互行为的非线性关系建模,在每个场景嵌入特征的迭代更新步骤中,根据上一个迭代步骤的场景嵌入特征和一句当前迭代步骤的场景特征、个体平均外观特征和个体平均嵌入特征对其进行部分更新,使得嵌入特征在迭代更新的过程中能够平滑收敛;其次,通过本文档来自技高网...

【技术保护点】
1.一种基于隐变量的嵌入的群体行为识别方法,其特征在于,包括下述步骤:S1、对于群体行为识别,利用数据集中提供的个体标注框进行个体图片分割,通过对图片中的个体特征进行双流卷积神经网络的特征提取,得到群体行为场景中每个个体的特征表达,同样通过双流卷积神经网络,以视频帧图片进行输入,得到当前群体行为场景下的特征表达;S2、构建隐变量嵌入模型,对具有节点和边的图模型利用隐嵌入的变量进行表征,从而使得每个节点嵌入特征具备与该节点相关节点的信息,对表征人与群体之间的关系进行隐变量嵌入,将迭代的参数更新方式展开成递归神经网络,从而对视频中的每个个体进行关系建模,根据学习得到的隐变量进行群体行为识别;S3、基于隐变量嵌入模型的群体行为识别,通过构造一组隐变量,使其能够对于人与群体交互行为进行表达的特征,通过对个体外观和运动等信息进行编码,得到具有群体行为语义的中层隐变量表达,对于当前场景中的所有人,利用提出的隐变量嵌入模型分别对其进行人与群体交互关系的提取,并且对场景进行总体的群体行为隐变量表达,然后将隐变量通过特征嵌入的方法嵌入到语义特征空间,利用监督信号使得具有相近群体行为语义信息的隐变量在特征空间中具有较近的距离,从而便于后续根据隐变量对群体行为进行分类和识别;S4、引入注意力机制对每个与当下群体行为有关的个体和场景信息进行特征嵌入,所述注意力机制是一种被验证过的,能够有效地提升序列学习任务效果的一种方法,在编解码器框架内,通过在编码段加入注意力机制,对编码段的源数据进行加权变换,或者在解码段引入注意力机制,从而对目标数据进行加权变换,有效地提高模型对信息的获取能力和筛选能力。...

【技术特征摘要】
1.一种基于隐变量的嵌入的群体行为识别方法,其特征在于,包括下述步骤:S1、对于群体行为识别,利用数据集中提供的个体标注框进行个体图片分割,通过对图片中的个体特征进行双流卷积神经网络的特征提取,得到群体行为场景中每个个体的特征表达,同样通过双流卷积神经网络,以视频帧图片进行输入,得到当前群体行为场景下的特征表达;S2、构建隐变量嵌入模型,对具有节点和边的图模型利用隐嵌入的变量进行表征,从而使得每个节点嵌入特征具备与该节点相关节点的信息,对表征人与群体之间的关系进行隐变量嵌入,将迭代的参数更新方式展开成递归神经网络,从而对视频中的每个个体进行关系建模,根据学习得到的隐变量进行群体行为识别;S3、基于隐变量嵌入模型的群体行为识别,通过构造一组隐变量,使其能够对于人与群体交互行为进行表达的特征,通过对个体外观和运动等信息进行编码,得到具有群体行为语义的中层隐变量表达,对于当前场景中的所有人,利用提出的隐变量嵌入模型分别对其进行人与群体交互关系的提取,并且对场景进行总体的群体行为隐变量表达,然后将隐变量通过特征嵌入的方法嵌入到语义特征空间,利用监督信号使得具有相近群体行为语义信息的隐变量在特征空间中具有较近的距离,从而便于后续根据隐变量对群体行为进行分类和识别;S4、引入注意力机制对每个与当下群体行为有关的个体和场景信息进行特征嵌入,所述注意力机制是一种被验证过的,能够有效地提升序列学习任务效果的一种方法,在编解码器框架内,通过在编码段加入注意力机制,对编码段的源数据进行加权变换,或者在解码段引入注意力机制,从而对目标数据进行加权变换,有效地提高模型对信息的获取能力和筛选能力。2.根据权利要求1所述基于隐变量的嵌入的群体行为识别方法,其特征在于,步骤S1具体包括:S1.1、判断图片的类型;S1.1.1、当图片为RGB图片时,利用数据集中给定的个体标注框对每个人进行定位,并且根据标注框对每帧图片的个体进行图片抠取,经过对截取的图片进行大小变换成224×224×3,其中3为RGB通道数,将变换后的图片输入到双流卷积神经网络的RGB流卷积网络中进行特征提取;S1.1.2、当图片为光流图片时,首先将光流图片进行大小变换成224×224×1,然后将水平方向和垂直方向的光流图按照通道进行拼接成224×224×2,最后再将该帧的前后共十个时刻的光流图进行通道拼接,得到224×224×20的堆叠的光流图表达;S1.2、其中双流网络使用经过UCF101数据集预训练的50层残差卷积神经网络网络参数,特征取残差网络最后一个池化层的输出,特征维度为2048维;S1.3、最后通过将RGB通道和光流通道输出的特征进行拼接,最终得到每个个体4096维的外观及运动特征表达。3.根据权利要求1所述基于隐变量的嵌入的群体行为识别方法,其特征在于,步骤S2具体为:S3.1、通过将隐变量的后验概率进行特征空间的嵌入,将隐变量Hi的后验概率p(Hi|{Xi})利用特征图Φ(Hi)进行嵌入,有:目前先假设Φ(Hi)∈Rd是无限维特征空间,并且d的值可以通过交叉验证的方法确定;S3.2、需要对Hi中的所有变量计算积分,即有仅当图的结构为树时,上式可以通过信息传播算法进行计算;S3.3、从嵌入点的角度利用不动点方程对上式进行等价表达,即利用公式算子进行推导,有:对于平均场嵌入方法,函数和算子均与势能函数Φ和Ψ之前有复杂的非线性关系,并且特征映射函数φ需要从数据中学习得到;S3.4、通过利用神经网络进行参数化表示,并利用监督信息对其学习进行非线性关系的获得,假设其中d为超参数,对于算子通过下式的神经网络进行参数化表达:其中σ(·)∶=max{0,·}为线性整流函数,并记待学习参数为W={W1,W2,W3};因此,根据的表达式通过平均场迭代更新的方式对网络的参数进行估计,从而对图中的关系利用嵌入特征进行表达。4.根据权利要求1所述基于隐变量的嵌入的群体行为识别方法,其特征在于,步骤S3具体为:记每个可以观测...

【专利技术属性】
技术研发人员:郑伟诗李本超唐永毅
申请(专利权)人:中山大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1