当前位置: 首页 > 专利查询>清华大学专利>正文

基于语义注意力保留机制的群体行为识别方法及装置制造方法及图纸

技术编号:20273421 阅读:97 留言:0更新日期:2019-02-02 03:59
本发明专利技术公开了一种基于语义注意力保留机制的群体行为识别方法及装置,其中,方法包括以下步骤:步骤S1:搭建并训练教师网络;步骤S2:获取学生网络的输入特征;步骤S3:根据学生网络的输入特征搭建学生网络;步骤S4:训练学生网络。该方法通过挖掘语义空间与视觉空间的注意力信息,使得视觉空间的注意力与语义空间的注意力保持一致,从而充分利用语义空间的注意力信息,提高群体行为识别的性能。

【技术实现步骤摘要】
基于语义注意力保留机制的群体行为识别方法及装置
本专利技术涉及计算机视觉及深度学习
,特别涉及一种基于语义注意力保留机制的群体行为识别方法及装置。
技术介绍
行为识别旨在区分出在一段给定视频中的行为类别,是计算机视觉中的一个重要研究方向。群体行为识别是人体行为识别中的一个子研究领域,它有着广泛的应用场景,如交通视频监控、体育视频分析等。相比传统的单人行为识别,群体行为识别还需要考虑人与人之间的高层关系。所以,设计一个高效的模型来融合不同个人之间的动态信息,以及挖掘它们之间的形状上下文关系,显得至关重要。以附图1为例,其底端展示了一张从拍球数据集提取的视频帧,其所对应的群体行为“右方扣球”。显然,那个朝左扣球的运动员对于识别“右方扣球”这个群体行为能提供十分重要的判别信息,而其他站立的运动员会对识别这个群体动作,起到误导的作用。近年来,基于群体识别的研究开始引起学界的关注,其方法大体上可以分为两类:基于浅层学习的方法和基于深度学习的方法。早期的浅层学习方法大多对单人提取手工设计的特征,并通过概率图模型进行建模,代表方法有DLM(Discriminativelatentmodels,判别潜在模型),And-orGraph(与或图模型)等。然而,手工特征需要大量的先验知识,并且对时域信息的刻画能力较差。近期的深度学习方法在大规模群体数据集上取得了较好的效果,例如HDTM(hierarchicaldeeptemporalmodel,层次深层时域模型),CERN(confidence-energyrecurrentnetwork,置信能量递归网络)等,但是这些方法对高层语义信息的建模能力有限。附图2具体展示了几种基于深度神经网络的群体行为识别方法比较。(a)中所示的方法,在单人动作标签的监督下提取单人动作特征,通过最大池化或平均池化的方式进行特征融合。但这类方法未能刻画高层语义信息。(b)中所示方法,在单人动作标签的监督下生成描述词汇(一系列的单人动作标签),采用句子分类的方法进行分类得到最后群体行为标签。然而,句子分类对输入标签敏感,不好的输入标签会很大影响最终的识别效果。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种基于语义注意力保留机制的群体行为识别方法,该方法可以充分利用语义空间的注意力信息,提高群体行为识别的性能。本专利技术的另一个目的在于提出一种基于语义注意力保留机制的群体行为识别装置。为达到上述目的,本专利技术一方面实施例提出了一种基于语义注意力保留机制的群体行为识别方法,包括以下步骤:步骤S1:搭建并训练教师网络;步骤S2:获取学生网络的输入特征;步骤S3:根据所述学生网络的输入特征搭建学生网络;步骤S4:训练所述学生网络。本专利技术实施例的基于语义注意力保留机制的群体行为识别方法,通过挖掘语义空间与视觉空间的注意力信息,使得视觉空间的注意力与语义空间的注意力保持一致,有效解决了群体行为识别技术中存在的低精度问题,从而更好的聚焦到群体行为中的关键人物,进行更加高效精准的群体行为识别,进而可以充分利用语义空间的注意力信息,来提高群体行为识别的性能。另外,根据本专利技术上述实施例的基于语义注意力保留机制的群体行为识别方法还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述步骤S1进一步包括:将单人动作词汇编码生成向量,且通过第一非线性层将所述向量映射至隐层空间,并且引入注意力模型;采用所述第一非线性层得到每一个人的分数,并进行归一化处理;通过加权相加对所述单人动作词汇的特征进行融合,并将融合后的特征送入接着softmax激活函数的全连接层中,以得到最后的分类结果。进一步地,在本专利技术的一个实施例中,所述步骤S2进一步包括:获取每一帧中每一个人的矩形块;通过深度卷积神经网络和深度递归神经网络对所述矩形块提取特征,以刻画每个人在每一个时刻的动态信息。进一步地,在本专利技术的一个实施例中,所述步骤S3进一步包括:采用第二非线性层计算每一个人每一时刻特征的分数,并进行归一化处理;通过加权相加对每一时刻的单人特征进行融合,以得到每一时刻的群体特征;将所述每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别。进一步地,在本专利技术的一个实施例中,在所述步骤S4中,在训练所述学生网络的过程中采用如下的损失函数:其中,JCLS为分类损失,JSPA为语义注意力保留损失,JKD为知识蒸馏(KD,knowledgedistillation)损失,λ1与λ2为权重项,I为示性函数,L为标签类别总数,l为预测标签类别,Z为真值标签类别,N为总人数,n为单个人的索引,αn为语义空间的注意力信息,T为总帧数,t为帧数索引,为视觉空间中第t帧所对应的注意力信息,pT为教师网络的softmax输出,pS为学生网络的softmax输出,为学生网络softmax输出中第l类对应的值。为达到上述目的,本专利技术另一方面实施例提出了一种基于语义注意力保留机制的群体行为识别装置,包括:第一搭建模块,用于搭建并训练教师网络;获取模块,用于获取学生网络的输入特征;第二搭建模块,用于根据所述学生网络的输入特征搭建学生网络;训练模块,用于训练所述学生网络。本专利技术实施例的基于语义注意力保留机制的群体行为识别装置,通过挖掘语义空间与视觉空间的注意力信息,使得视觉空间的注意力与语义空间的注意力保持一致,有效解决了群体行为识别技术中存在的低精度问题,从而更好的聚焦到群体行为中的关键人物,进行更加高效精准的群体行为识别,进而可以充分利用语义空间的注意力信息,来提高群体行为识别的性能。另外,根据本专利技术上述实施例的基于语义注意力保留机制的群体行为识别装置还可以具有以下附加的技术特征:进一步地,在本专利技术的一个实施例中,所述第一搭建模块进一步用于将单人动作词汇编码生成向量,且通过第一非线性层将所述向量映射至隐层空间,并且引入注意力模型,并采用所述第一非线性层得到每一个人的分数,并进行归一化处理,通过加权相加对所述单人动作词汇的特征进行融合,并将融合后的特征送入接着softmax激活函数的全连接层中,以得到最后的分类结果。进一步地,在本专利技术的一个实施例中,所述获取模块进一步用于获取每一帧中每一个人的矩形块,并通过深度卷积神经网络和深度递归神经网络对所述矩形块提取特征,以刻画每个人在每一个时刻的动态信息。进一步地,在本专利技术的一个实施例中,所述第二搭建模块进一步用于采用第二非线性层计算每一个人每一时刻特征的分数,并进行归一化处理,并通过加权相加对每一时刻的单人特征进行融合,以得到每一时刻的群体特征,将所述每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别。进一步地,在本专利技术的一个实施例中,在训练所述学生网络的过程中采用如下的损失函数:其中,JCLS为分类损失,JSPA为语义注意力保留损失,JKD为知识蒸馏(KD,knowledgedistillation)损失,λ1与λ2为权重项,I为示性函数,L为标签类别总数,l为预测标签类别,Z为真值标签类别,N为总人数,n为单个人的索引,αn为语义空间的注意力信息,T为总帧数,t为帧数索引,为视觉空间中第t帧所对应的注意力信息,pT为教师网络的softma本文档来自技高网
...

【技术保护点】
1.一种基于语义注意力保留机制的群体行为识别方法,其特征在于,包括以下步骤:步骤S1:搭建并训练教师网络;步骤S2:获取学生网络的输入特征;步骤S3:根据所述学生网络的输入特征搭建学生网络;以及步骤S4:训练所述学生网络。

【技术特征摘要】
1.一种基于语义注意力保留机制的群体行为识别方法,其特征在于,包括以下步骤:步骤S1:搭建并训练教师网络;步骤S2:获取学生网络的输入特征;步骤S3:根据所述学生网络的输入特征搭建学生网络;以及步骤S4:训练所述学生网络。2.根据权利要求1所述的基于语义注意力保留机制的群体行为识别方法,其特征在于,所述步骤S1进一步包括:将单人动作词汇编码生成向量,且通过第一非线性层将所述向量映射至隐层空间,并且引入注意力模型;采用所述第一非线性层得到每一个人的分数,并进行归一化处理;通过加权相加对所述单人动作词汇的特征进行融合,并将融合后的特征送入接着softmax激活函数的全连接层中,以得到最后的分类结果。3.根据权利要求1所述的基于语义注意力保留机制的群体行为识别方法,其特征在于,所述步骤S2进一步包括:获取每一帧中每一个人的矩形块;通过深度卷积神经网络和深度递归神经网络对所述矩形块提取特征,以刻画每个人在每一个时刻的动态信息。4.根据权利要求1所述的基于语义注意力保留机制的群体行为识别方法,其特征在于,所述步骤S3进一步包括:采用第二非线性层计算每一个人每一时刻特征的分数,并进行归一化处理;通过加权相加对每一时刻的单人特征进行融合,以得到每一时刻的群体特征;将所述每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别。5.根据权利要求1所述的基于语义注意力保留机制的群体行为识别方法,其特征在于,在所述步骤S4中,在训练所述学生网络的过程中采用如下的损失函数:其中,JCLS为分类损失,JSPA为语义注意力保留损失,JKD为知识蒸馏损失,λ1与λ2为权重项,I为示性函数,L为标签类别总数,l为预测标签类别,Z为真值标签类别,N为总人数,n为单个人的索引,αn为语义空间的注意力信息,T为总帧数,t为帧数索引,为视觉空间中第t帧所对应的注意力信息,pT为教师网络的softmax输出,pS为学生网络的softmax输出,为学生网络softmax输出中第l类对应的值。6....

【专利技术属性】
技术研发人员:鲁继文周杰唐彦嵩
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1