基于语义注意力保留机制的群体行为识别方法及装置制造方法及图纸

技术编号：20273421 阅读：97 留言：0更新日期：2019-02-02 03:59

本发明专利技术公开了一种基于语义注意力保留机制的群体行为识别方法及装置，其中，方法包括以下步骤：步骤S1：搭建并训练教师网络；步骤S2：获取学生网络的输入特征；步骤S3：根据学生网络的输入特征搭建学生网络；步骤S4：训练学生网络。该方法通过挖掘语义空间与视觉空间的注意力信息，使得视觉空间的注意力与语义空间的注意力保持一致，从而充分利用语义空间的注意力信息，提高群体行为识别的性能。

全部详细技术资料下载

【技术实现步骤摘要】
基于语义注意力保留机制的群体行为识别方法及装置
本专利技术涉及计算机视觉及深度学习
，特别涉及一种基于语义注意力保留机制的群体行为识别方法及装置。
技术介绍
行为识别旨在区分出在一段给定视频中的行为类别，是计算机视觉中的一个重要研究方向。群体行为识别是人体行为识别中的一个子研究领域，它有着广泛的应用场景，如交通视频监控、体育视频分析等。相比传统的单人行为识别，群体行为识别还需要考虑人与人之间的高层关系。所以，设计一个高效的模型来融合不同个人之间的动态信息，以及挖掘它们之间的形状上下文关系，显得至关重要。以附图1为例，其底端展示了一张从拍球数据集提取的视频帧，其所对应的群体行为“右方扣球”。显然，那个朝左扣球的运动员对于识别“右方扣球”这个群体行为能提供十分重要的判别信息，而其他站立的运动员会对识别这个群体动作，起到误导的作用。近年来，基于群体识别的研究开始引起学界的关注，其方法大体上可以分为两类：基于浅层学习的方法和基于深度学习的方法。早期的浅层学习方法大多对单人提取手工设计的特征，并通过概率图模型进行建模，代表方法有DLM(Discriminativelatentmodels，判别潜在模型)，And-orGraph(与或图模型)等。然而，手工特征需要大量的先验知识，并且对时域信息的刻画能力较差。近期的深度学习方法在大规模群体数据集上取得了较好的效果，例如HDTM(hierarchicaldeeptemporalmodel，层次深层时域模型)，CERN(confidence-energyrecurrentnetwork，置信能量递归网络)等，但是这些...

【技术保护点】
1.一种基于语义注意力保留机制的群体行为识别方法，其特征在于，包括以下步骤：步骤S1：搭建并训练教师网络；步骤S2：获取学生网络的输入特征；步骤S3：根据所述学生网络的输入特征搭建学生网络；以及步骤S4：训练所述学生网络。

【技术特征摘要】
1.一种基于语义注意力保留机制的群体行为识别方法，其特征在于，包括以下步骤：步骤S1：搭建并训练教师网络；步骤S2：获取学生网络的输入特征；步骤S3：根据所述学生网络的输入特征搭建学生网络；以及步骤S4：训练所述学生网络。2.根据权利要求1所述的基于语义注意力保留机制的群体行为识别方法，其特征在于，所述步骤S1进一步包括：将单人动作词汇编码生成向量，且通过第一非线性层将所述向量映射至隐层空间，并且引入注意力模型；采用所述第一非线性层得到每一个人的分数，并进行归一化处理；通过加权相加对所述单人动作词汇的特征进行融合，并将融合后的特征送入接着softmax激活函数的全连接层中，以得到最后的分类结果。3.根据权利要求1所述的基于语义注意力保留机制的群体行为识别方法，其特征在于，所述步骤S2进一步包括：获取每一帧中每一个人的矩形块；通过深度卷积神经网络和深度递归神经网络对所述矩形块提取特征，以刻画每个人在每一个时刻的动态信息。4.根据权利要求1所述的基于语义注意力保留机制的群体行为识别方法，其特征在于，所述步骤S3进一步包括：采用第二非线性层计算每一个人每一时刻特征的分数，并进行归一化处理；通过加权相加对每一时刻的单人特征进行融合，以得到每一时刻的群体特征；将所述每一时刻的群体特征送入最终的双向递归神经网络中进行群体行为识别。5.根据权利要求1所述的基于语义注意力保留机制的群体行为识别方法，其特征在于，在所述步骤S4中，在训练所述学生网络的过程中采用如下的损失函数：其中，JCLS为分类损失，JSPA为语义注意力保留损失，JKD为知识蒸馏损失，λ1与λ2为权重项，I为示性函数，L为标签类别总数，l为预测标签类别，Z为真值标签类别，N为总人数，n为单个人的索引，αn为语义空间的注意力信息，T为总帧数，t为帧数索引，为视觉空间中第t帧所对应的注意力信息，pT为教师网络的softmax输出，pS为学生网络的softmax输出，为学生网络softmax输出中第l类对应的值。6....

【专利技术属性】
技术研发人员：鲁继文，周杰，唐彦嵩，
申请(专利权)人：清华大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人