一种基于粗粒度-细粒度嵌套学习的群体活动识别方法技术

技术编号：38585002 阅读：8 留言：0更新日期：2023-08-26 23:27

本发明专利技术公开了一种基于粗粒度

全部详细技术资料下载

【技术实现步骤摘要】
一种基于粗粒度
‑
细粒度嵌套学习的群体活动识别方法

[0001]本专利技术涉及计算机视觉领域中的群体活动识别方法，特别涉及一种无需检测器的群体活动识别方法。

技术介绍

[0002]群体活动识别是计算机视觉领域中的一项基本但是具有挑战性的任务，在监控、体育视频分析、社会角色理解等方面有着广泛的应用。面对多人场景中多余的视觉信息，现有方法依靠细粒度标签，例如个人位置和行动标签，来提取有效的个人特征或特征。具体来说，这些方法使用单个位置标签，使用RoIAlign来提取单个特征，捕获交互信息和个体之间的时空变化，然后生成反映交互信息和场景信息的视频表示。然而，获得这些细粒度特征非常耗时，这也是群体活动识别任务面临的挑战。
[0003]因此，为了减少对细粒度标签的依赖并提高群体活动识别的适用性，人们开始在训练和测试阶段仅使用视频级活动标签，来探索弱监督下的群体活动识别方法。弱监督群体活动识别的主要挑战是如何提取有效的关键视觉特征，而无需任何额外的细粒度个人监督信息。现有解决方案通过以下方式提取视觉特征。(a)人物特征。使用现成的物体检测器来生成人员的位置提名，然后提取人物特征。然而，它严重依赖于现有探测器的质量，并且缺乏灵活性。(b)网格特征。采用Transformer从具有可学习权重的噪声网格特征中学习一组令牌嵌入，然后将它们聚合到整体视频表示中。然而，这种方法平等地编码所有局部视觉信息，并且不会深入挖掘与活动高度相关的关键视觉内容。因此，如何灵活且准确地捕捉关键视觉特征是一个值得关注的问题。/>
技术实现思路

[0004]专利技术目的：针对上述现有技术，提出一种基于粗粒度
‑
细粒度嵌套学习的无需检测器的群体活动识别方法，有效提高弱监督下的群体活动识别效率。
[0005]技术方案：一种基于粗粒度
‑
细粒度嵌套学习的群体活动识别方法，包括以下步骤：
[0006]S1嵌套交互学习：将T帧RGB图像进行裁剪，然后输入骨架网络提取视觉特征，每个特征看作一个局部令牌，为每一帧定义一个可学习的全局令牌，与局部令牌连接在一起更新视觉特征；然后将视觉特征输入嵌套交互器，捕获时空全局信息，得到全局特征；
[0007]S2粗粒度空间定位：用每个局部令牌与全局令牌的相似性表示该令牌的空间视觉权重，然后粗略地选出相似性高的局部令牌并映射到原图所在的位置，即以粗略地定位关键的视觉块；
[0008]S3细粒度时空选择：采用块融合模块和交叉注意力机制对步骤S2获得的局部块特征进行细化处理；
[0009]S4群体活动预测：将步骤S3得到的视频表示传入分类器中进行分类。
[0010]进一步的，步骤S1中，一帧图像包含N个局部令牌，与全局令牌连接在一起后得到
新的视觉特征其中C是特征维度；所述将视觉特征输入嵌套交互器，捕获时空全局信息包括以下步：
[0011]S11：为视觉特征X
g
添加可学习的空间位置编码，然后采用空间注意力机制探索全局与局部令牌之间的空间交互信息，并将局部令牌中包含的信息整合到全局令牌中，得到包含空间交互信息的视觉特征X
gs
；
[0012]S12：对视觉特征X
gs
进行空间池化，然后使用跨时间维度的卷积层来生成时序重要图V并更新局部令牌，得到包含时序信息的局部令牌
[0013]S13：计算局部令牌的平均值得到包含空间信息的全局令牌；
[0014]S14：每一帧的全局令牌与局部令牌连接在一起来生成新的全局视觉特征X
gst
，再将其传入一个多层感知机，然后进行残差连接，得到包含时空信息的粗粒度令牌X'
g
；
[0015]S15：采用包含时空信息的粗粒度全局令牌来最为最终的全局特征。
[0016]进一步的，步骤S2包括以下步骤：
[0017]S21：采用表示每个局部令牌与全局令牌的相似度，作为该令牌的空间视觉权重；
[0018]S22：采用一个大小为a
×
b的滑动窗口在每一帧图片上滑动，将局部令牌划分为N个组；对于第n个组，组里有a
×
b个局部令牌，令牌的下标集合表示为U
n
，则对应于中的下标集合V
n
采用映射函数计算得到；
[0019]S23：计算每个组里所有令牌的空间视觉权重之和作为组视觉权重
[0020]S24：对采用top
‑
K函数选出关键视觉组
[0021]S25：在得到关键视觉组对应于原图的位置以后，采用骨架网络提取局部块特征X
l
。
[0022]进一步的，步骤S3包括以下步骤：
[0023]S31：在块融合模块中，对每个块的特征图计算平均值和标准差作为风格特征，使用1D卷积操作对通道维度进行聚合，然后使用Sigmoid函数生成通道重要图G；将局部块特征X
l
与通道重要图G相乘，得到包含组内关键信息的块特征X
lc
；
[0024]S32：为每张特征图计算它与其余特征图的差异，得到差异特征D，并使用一个残差连接来为块特征添加组间信息，再使用一个全连阶层生成有辨别性并且包含交互信息的定位得到的令牌X
lcd
；
[0025]S33：对X
lcd
和步骤S1中得到的全局特征使用交叉注意力机制，然后采用一系列卷积层聚合全局特征和局部特征，接着在K维度对局部特征进行池化，得到最终的局部特征X'
l
；
[0026]S34：将局部特征X'
l
与全局特征连接起来得到视频表示X
v
。
[0027]有益效果：(1)本专利技术通过逐步定位整个场景的视觉块，然后进一步精细地学习局部特征以及全局特征，提升了弱监督的群体活动识别的精度。
[0028](2)本专利技术设计了一个新的粗粒度空间定位器，根据嵌套交互器中全局和本地令牌之间的空间交互关系，粗略地捕获整个场景的关键视觉块，解决现有方法使用大量冗余
特征的问题。
[0029](3)本专利技术设计了一个新的细粒度时空选择器，通过交叉注意力机制考虑全局时空上下文，对局部视觉块特征进行精细编码。
[0030](4)本专利技术能够高效地分析群体活动类别，不依赖于包含个体位置、个体动作类别在内的细粒度标签。
[0031](5)本专利技术不使用已经存在的检测器获取个体位置，而且在训练的过程中自动捕获视觉关键部分并进行定位，更为灵活。
[0032](6)本专利技术通过先粗略地定位关键视觉区域，然后对其进行细化，能够高效准确地深度挖掘视觉关键区域之间的关系与差异，提升分析准确性。
附图说明
[0033]图1为本专利技术方法的流程图；
[0034]图2为本专利技术方法对应的结构框图；
[0035]图3为本专利技术中粗粒度空间定位器的具体步骤，其中本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于粗粒度
‑
细粒度嵌套学习的群体活动识别方法，其特征在于，包括以下步骤：S1嵌套交互学习：将T帧RGB图像进行裁剪，然后输入骨架网络提取视觉特征，每个特征看作一个局部令牌，为每一帧定义一个可学习的全局令牌，与局部令牌连接在一起更新视觉特征；然后将视觉特征输入嵌套交互器，捕获时空全局信息，得到全局特征；S2粗粒度空间定位：用每个局部令牌与全局令牌的相似性表示该令牌的空间视觉权重，然后粗略地选出相似性高的局部令牌并映射到原图所在的位置，即以粗略地定位关键的视觉块；S3细粒度时空选择：采用块融合模块和交叉注意力机制对步骤S2获得的局部块特征进行细化处理；S4群体活动预测：将步骤S3得到的视频表示传入分类器中进行分类。2.根据权利要求1所述的基于粗粒度
‑
细粒度嵌套学习的群体活动识别方法，其特征在于，步骤S1中，一帧图像包含N个局部令牌，与全局令牌连接在一起后得到新的视觉特征其中C是特征维度；所述将视觉特征输入嵌套交互器，捕获时空全局信息包括以下步：S11：为视觉特征X
g
添加可学习的空间位置编码，然后采用空间注意力机制探索全局与局部令牌之间的空间交互信息，并将局部令牌中包含的信息整合到全局令牌中，得到包含空间交互信息的视觉特征X
gs
；S12：对视觉特征X
gs
进行空间池化，然后使用跨时间维度的卷积层来生成时序重要图V并更新局部令牌，得到包含时序信息的局部令牌S13：计算局部令牌的平均值得到包含空间信息的全局令牌；S14：每一帧的全局令牌与局部令牌连接在一起来生成新的全局视觉特征X
gst
，再将其传入一个多层感知机，然后进行残差连接，得到包含时空信息的粗粒度令牌X'
g
；S15：采用包含时空信息的粗粒度全局令牌来最为最终的全局特征。3.根据权利要求1所述的基于粗粒度<...

【专利技术属性】
技术研发人员：舒祥波，葛晓静，
申请(专利权)人：南京理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人