基于上下文感知关系预测编码的自监督群体行为识别方法技术

技术编号:38741094 阅读:12 留言:0更新日期:2023-09-08 23:25
本申请公开了一种基于上下文感知关系预测编码的自监督群体行为识别方法,属于视频分析技术领域,包括获取群体行为视频数据;基于上下文感知关系预测编码,构建群体行为特征自学习模型的网络结构,网络结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器;对网络结构进行自监督训练,得到群体行为特征自学习目标网络;基于少量样本对特征自学习目标网络进行微调,得到用于实现群体行为识别的目标网络。本申请通过上下文感知关系预测编码捕捉上下文关系,从而得到更全面准确的群体行为自学习表征。适用于缺乏标注的高效精确群体行为识别。乏标注的高效精确群体行为识别。乏标注的高效精确群体行为识别。

【技术实现步骤摘要】
基于上下文感知关系预测编码的自监督群体行为识别方法


[0001]本申请涉及一种基于上下文感知关系预测编码的自监督群体行为识别方法,属于视频分析


技术介绍

[0002]群体行为识别是指给定一个包含多人场景的视频,模型需要识别出视频中多个人物正在完成的群体活动。群体行为识别是视频理解中的一个重要问题,可以被应用在运动比赛视频分析、监控视频识别、社交行为理解等现实场景中。由于其广泛的应用需求,群体行为识别问题受到了研究人员的广泛关注。目前,随着深度学习的不断发展,基于深度神经网络的特征提取方法已取代了传统算法。然而,现有的基于深度学习算法的群体行为识别技术虽然取得了显著的进步,但大多基于监督学习或弱监督学习,需要利用大量有标签的数据集对模型进行训练,手动标注群体行为标签需要消耗大量的人力和资源,成本高昂。
[0003]针对上述问题,现阶段的一些研究关注于自监督学习(SSL),一般来说,现有的SSL方法通常为基于上下文的方法,也被称为图像的自监督表征学习。对比学习是一种自监督表征学习方法,近年来,随着对比学习的巨大成功,许多方法将其用于提取视频特征表示。此外,利用对比学习进行视频预测的编解码方案在视频理解中受到了越来越多的关注,例如对比动作表征学习(CARL)和视频自监督协同训练对比学习(CoCLR)。
[0004]然而,由于群体行为中复杂的上下文动态,上述SSL方法在群体行为表征学习方面仍然存在一些困难。当前基于对比学习的视频SSL方法通常采用整体表征,例如,用3D CNN提取的视频特征来构建表征对,这会由于模型交互的不足而导致性能受限。此外,群体中的个体互动随着时间的推移变化很大,且持续时间更长。现有的视频SSL方法从相隔较大的时隙实现表征对的时空一致性只能捕获很少的共享信息,而预测编码方案通过将未来变化预测到一致空间来考虑时间演变,以最大化对比表征对之间的一致性,显示出了学习群体行为表征的能力。但上述方法都受限于描述复杂关系转换的能力不足,会大大影响对群体行为的理解。此外,由于群体行为中复杂的上下文动态关系,常用的基于循环神经网络(RNN)和长短期记忆网络(LSTM)的方法建模复杂个体关系转换的能力有限,会大大影响性能。因此,本领域现有的视频自监督学习(SSL)方法的表征学习能力依然存在较大提升空间。

技术实现思路

[0005]本申请的目的在于提供一种基于上下文感知关系预测编码的自监督群体行为识别方法,基于上下文感知关系预测编码提出了新的端到端的群体特征自监督模型,可以捕捉上下文关系,进行群体行为表征自学习,实现有限标注条件下的高效精确群体行为识别。
[0006]为实现上述目的,本申请第一方面提供了一种基于上下文感知关系预测编码的自监督群体行为识别方法,包括:
[0007]获取群体行为视频数据;
[0008]基于上下文感知关系预测编码,构建群体特征自监督模型的网络结构,所述网络
结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述注意力机制编码器根据所述群体标记生成用于构建群体关系的高级语义;所述混合上下文Transformer解码器根据所述高级语义和全局场景上下文信息预测未来帧的空间和时间的群体行为特征;
[0009]对所述网络结构进行自监督训练,得到特征自学习目标网络;
[0010]基于少量样本对特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。
[0011]在一种实施方式中,所述群体标记生成器具体用于:
[0012]将预训练的I3D网络作为骨干提取特征图对输入的视频片段进行特征提取;
[0013]根据特征提取的结果分别建立外观特征分支和姿态线索分支;
[0014]通过全连接层连接所述外观特征分支和所述姿态线索分支,得到视频片段中每个个体的D维特征向量;
[0015]将各D维特征向量进行组合得到所述群体标记。
[0016]在一种实施方式中,所述注意力机制编码器具体用于:
[0017]挖掘群体间的空间和时间交互关系,通过多头注意力模块得到群体行为高级语义编码信息,作为所述高级语义。
[0018]在一种实施方式中,所述混合上下文Transformer解码器具体用于:
[0019]根据所述I3D网络的最后一个卷积层获取未来视频帧的场景上下文信息;
[0020]通过Transformer自注意力机制将所述群体行为高级语义编码信息和所述场景上下文信息进行结合,通过卷积、归一化及池化操作,在所述未来视频帧的场景上下文信息的指导下逐步预测未来每一帧的空间和时间的群体行为特征。
[0021]在一种实施方式中,所述对所述网络结构进行自监督训练包括:
[0022]在所述混合上下文Transformer解码器进行预测的过程中,基于所述群体行为高级语义编码信息、所述场景上下文信息以及所述群体行为特征计算联合损失;
[0023]基于所述联合损失,通过损失梯度反向传播算法迭代调整所述网络结构的各项参数,直至训练收敛,并得到所述特征自学习目标网络。
[0024]在一种实施方式中,所述联合损失包括:
[0025]个体间对比损失和对抗损失,其中,所述个体间对比损失用于进行细粒度预测,提升个体层面群体行为特征的预测精度;所述对抗损失用于提高预测的一致性。
[0026]在一种实施方式中,所述基于少量样本对所述群体行为特征自学习目标网络进行微调包括:
[0027]根据预设的群体行为识别任务,基于少量监督学习样本对所述群体行为特征自学习目标网络进行微调,实现对所述群体行为特征自学习目标网络的表征自学习能力的评估;
[0028]其中,所述群体行为识别任务为微调整个网络结构进行群体行为识别时,所述基于少量样本对特征自学习目标网络进行微调包括:在所述特征自学习目标网络后添加一个线性分类层,所述特征自学习目标网络和所述线性分类层各项参数都在有标注的训练样本约束下进行微调。
[0029]本申请第二方面提供了一种基于上下文感知关系预测编码的自监督群体行为识别装置,包括:
[0030]获取模块,用于获取群体行为视频数据;
[0031]构建模块,用于基于上下文感知关系预测编码,构建群体特征自监督模型的网络结构,所述网络结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述注意力机制编码器根据所述群体标记生成用于构建群体关系的高级语义;所述混合上下文Transformer解码器根据所述高级语义和全局场景上下文信息预测未来帧的空间和时间的群体行为特征;
[0032]训练模块,用于对所述网络结构进行自监督训练,得到特征自学习目标网络;
[0033]微调模块,用于基于少量样本对所述特征本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于上下文感知关系预测编码的自监督群体行为识别方法,其特征在于,包括:获取群体行为视频数据;基于上下文感知关系预测编码,构建群体特征自监督模型的网络结构,所述网络结构包括群体标记生成器、注意力机制编码器和混合上下文Transformer解码器,其中,所述群体标记生成器根据所述群体行为视频数据生成用于初始化个体表示的群体标记;所述注意力机制编码器根据所述群体标记生成用于构建群体关系的高级语义;所述混合上下文Transformer解码器根据所述高级语义和全局场景上下文信息预测未来帧的空间和时间的群体行为特征;对所述网络结构进行自监督训练,得到特征自学习目标网络;基于少量样本对特征自学习目标网络进行微调,得到目标网络,通过所述目标网络进行自监督群体行为识别。2.如权利要求1所述的自监督群体行为识别方法,其特征在于,所述群体标记生成器具体用于:将预训练的I3D网络作为骨干提取特征图对输入的视频片段进行特征提取;根据特征提取的结果分别建立外观特征分支和姿态线索分支;通过全连接层连接所述外观特征分支和所述姿态线索分支,得到视频片段中每个个体的D维特征向量;将各D维特征向量进行组合得到所述群体标记。3.如权利要求2所述的自监督群体行为识别方法,其特征在于,所述注意力机制编码器具体用于:挖掘群体间的空间和时间交互关系,通过多头注意力模块得到群体行为高级语义编码信息,作为所述高级语义。4.如权利要求3所述的自监督群体行为识别方法,其特征在于,所述混合上下文Transformer解码器具体用于:根据所述I3D网络的最后一个卷积层获取未来视频帧的场景上下文信息;通过Transformer自注意力机制将所述群体行为高级语义编码信息和所述场景上下文信息进行结合,通过卷积、归一化及池化操作,在所述未来视频帧的场景上下文信息的指导下逐步预测未来每一帧的空间和时间的群体行为特征。5.如权利要求4所述的自监督群体行为识别方法,其特征在于,所述对所述网络结构进行自监督训练包括:在所述混合上下文Transformer解码器进行预测的过程中,基于所述群体行为高级语义编码信息、所述场景上下文信息以及所述群体行为特征计算联合损失;基于所述联合损失,通过损失梯度反向传播算...

【专利技术属性】
技术研发人员:周琬婷韩雨杉孔龙腾吴钺孙哲南
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1