基于阵型引导行为交互学习的群体行为识别方法及系统技术方案

技术编号：40242003 阅读：6 留言：0更新日期：2024-02-02 22:39

本发明专利技术提供基于阵型引导行为交互学习的群体行为识别方法及系统，属于人工智能、群体行为识别技术领域。其技术要点在于，在建模行为者之间关系的过程中，首先基于行为者的空间位置信息得到行为者空间阵型特征，随后利用行为者空间阵型特征引导行为者的关系交互，协同应用行为者的空间位置与表观特征进行群体行为识别推理。本发明专利技术主要缓解了现有方法在划分多层级交互子群体时没有充分考虑到行为者空间坐标关联的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于人工智能、群体行为识别，尤其涉及基于阵型引导行为交互学习的群体行为识别方法及系统。

技术介绍

1、现代社会，随着图像、视频采集设备的普及，每日产生的海量图像、视频数据催生了对计算机辅助视频分析的需要。群体行为识别旨在从一个视频片段中识别出由多个行为者组成的群体所共同进行的行为，该技术在安防、运动分析场景有着广泛的应用潜力。

2、目前的群体行为识别方法主要集中在如何对行为者之间的交互关系进行准确建模。对于群体行为识别而言，挖掘出场景中多个参与者之间的有效交互关系是精准识别的关键。

3、现有群体行为识别方法通常基于行为者的表观特征进行子群体划分，随后进行多层级的交互建模。该类方法通常首先利用行为者表观特征的相似度，将行为者划分为多个不重叠的子群体，每个子群体拥有相似的特征语义。随后，分别对每个子组内和子组间进行交互。然而，依赖于表观特征划分的行为者子组对于群体行为识别任务而言并不总是最优的，在群体行为场景中，行为者之间存在的交互关系与行为者的位置分布同样紧密相关。现在的一个问题是：如何协同利用行为者的表观特征与位置信息，使得群体行为识别网络能够更精确地建模行为者之间存在的时空交互关系。

技术实现思路

1、针对现有技术中存在的技术问题，本专利技术提供基于阵型引导行为交互学习的群体行为识别方法及系统，在建模行为者之间关系的过程中，首先基于行为者的空间位置信息得到行为者空间阵型特征，随后利用行为者空间阵型特征引导行为者的关系交互，协同应用行为者的空间位置

2、根据本专利技术的第一方面，本专利技术提供基于阵型引导行为交互学习的群体行为识别方法，包括以下步骤：

3、输入视频数据，其中，视频数据包括：多段视频序列，每段视频序列提供标注信息，包括该段视频序列中行为者正在进行的群体行为与每帧中每个个体行为者的位置信息；

4、从视频数据提取视频帧的图像特征，得到每一帧视频画面的内容和结构信息，在提取的视频帧图像特征上裁剪出每个个体行为者对应区域的表观特征，得到个体行为者外观上的可见特征；

5、从视频数据所提供的行为者位置标注中得到行为者的空间信息，对行为者的空间信息进行编码、交互与特征聚合，生成隐含行为者关系的空间阵型特征；

6、利用阵型引导的跨注意力机制来对行为者的空间阵型特征与表观特征进行协同建模，得到交互后的不同阵型引导的群体行为特征，使用跨阵型的自注意力机制对群体行为特征之间进行交互，得到融合了多种不同的空间阵型关系的群体行为表征；

7、构建损失函数来衡量模型预测的群体行为类别与真实群体行为类别标签之间的差异，并进行迭代训练和优化网络参数，使定义的损失函数达到最小；

8、将测试数据集的视频片段通过训练好的网络进行推理，产生测试集视频片段对应的群体行为类别分数，并和对应真实标注的群体行为进行比较，得到分类精度。

9、在上述技术方案的基础上，本专利技术还可以作出如下改进。

10、可选的，所述多段视频序列中，其中每段视频序列的内容为多个行为者共同进行一项群体行为。

11、可选的，所述从视频数据中提取视频帧的图像特征，得到每一帧视频画面的内容和结构信息，在提取的视频帧图像特征上裁剪出对应行为者区域的个体行为者表观特征具体包括：

12、(2a)对于每一段输入的视频序列中，随机筛选出视频帧，利用在imagenet数据集上预训练的卷积神经网络vgg-16作为特征提取器，提取视频帧的图像特征，

13、(2b)在提取的视频帧特征上裁剪出对应行为者区域的行为者表观特征；

14、(2c)将裁剪出的视频帧中每一帧上的n个行为者的个体级别表观特征进行拼接，并进行嵌入，投射到d维的空间得到整合后的个体行为者表观特征。

15、可选的，所述空间信息描述个体行为者在视频帧中的位置与行为者在整体场景中的分布情况。

16、可选的，所述从视频数据中提取行为者的空间信息，对行为者的空间信息进行编码、交互与特征聚合，生成隐含行为者空间关系的阵型特征包括：

17、(3a)采用个体行为者的边界框标注的左上角点与右下角点的坐标代表行为者的位置信息，首先利用位置嵌入，将行为者的坐标嵌入到d维的特征空间中得到行为者空间信息特征；

18、(3b)将行为者的位置特征依次送入行为者间多层感知机与行为者内多层感知机中，探索行为者位置特征之间的潜在关系，得到行为者彼此交互后的空间特征；

19、(3c)在对输入的空间特征反复进行(3b)步骤之后，采用一个含有m个节点的行为者间多层感知机对此前学习到的空间特征进行聚合，得到行为者的空间阵型特征。

20、可选的，所述行为者间多层感知机与行为者内多层感知机的操作的公式如下：

21、i＝i-mlp(e)＝σ(w2⊙σ(w1⊙et，*，i)t，*，i)

22、其中，i-mlp表示行为者间多层感知机，代表经过i-mlp交互之后的输出特征，⊙代表全连接操作，σ是gelu激活函数；

23、s＝s-mlp(i)＝σ(w4⊙σ(w3⊙it，j，*)t，j，*)

24、其中，s-mlp代表行为者内多层感知机，代表经过s-mlp交互之后的输出特征，

25、可选的，所述利用阵型引导的跨注意力机制来对行为者的空间阵型特征与表观特征进行协同建模，得到交互后的不同阵型引导的群体行为特征；使用跨阵型的自注意力机制对群体行为特征之间进行交互，得到融合了多种不同的空间阵型关系的群体行为表征包括：

26、(4a)利用阵型引导的跨注意力机制，计算每一帧上行为者空间阵型与行为者表观特征之间的相似度矩阵，并利用该矩阵再次对行为者表观特征再次进行加权融合，得到不同阵型引导下行为者交互特征；

27、(4b)利用步骤(4a)得到的单个阵型引导后的行为者交互特征，采用自注意力机制进行跨阵型的行为者交互特征交互，得到交互后的群体行为表征；

28、(4c)在得到的每一帧上的群体行为表征的基础上，采用全局平均池化操作将t帧上的群体行为表征进行聚合得到最终的群体行为表征。

29、可选的，所述构建损失函数来衡量模型预测的群体行为类别与真实群体行为类别标签之间的差异包括：

30、(5a)根据得到的个体行为特征预测每一帧上每一个行为者的个体行为；

31、(5b)根据得到的群体行为特征预测每段视频数据的群体行为类别；

32、(5c)利用步骤(5a)与(5b)得到的预测结果，采用交叉熵构成的损失函数与真实标注进行损失计算，其中，损失函数整体公式如下：

33、

34、式中，与都是交叉熵损失函数，λ是平衡两项损失的平衡因子，ygroup表示聚合得到的群体行为表征；表示群体行为特征预测每段视频数据本文档来自技高网...

【技术保护点】

1.基于阵型引导行为交互学习的群体行为识别方法，其特征在于，包括：

2.根据权利要求1所述的基于阵型引导行为交互学习的群体行为识别方法，其特征在于，所述多段视频序列中，其中每段视频序列的内容为多个行为者共同进行一项群体行为。

3.根据权利要求1所述的基于阵型引导行为交互学习的群体行为识别方法，其特征在于，所述从视频数据中提取视频帧的图像特征，得到每一帧视频画面的内容和结构信息，在提取的视频帧图像特征上裁剪出对应行为者区域的个体行为者表观特征具体包括：

4.根据权利要求1所述的基于阵型引导行为交互学习的群体行为识别方法，其特征在于，所述空间信息描述个体行为者在视频帧中的位置与行为者在整体场景中的分布情况。

5.根据权利要求1所述的基于阵型引导行为交互学习的群体行为识别方法，其特征在于，所述从视频数据中提取行为者的空间信息，对行为者的空间信息进行编码、交互与特征聚合，生成隐含行为者空间关系的阵型特征包括：

6.根据权利要求5所述的基于阵型引导行为交互学习的群体行为识别方法，其特征在于，所述行为者间多层感知机与行为者内多层感知机的操作公式如下：

7.根据权利要求1所述的基于阵型引导行为交互学习的群体行为识别方法，其特征在于，所述利用阵型引导的跨注意力机制来对行为者的空间阵型特征与表观特征进行协同建模，得到交互后的不同阵型引导的群体行为特征；使用跨阵型的自注意力机制对群体行为特征之间进行交互，得到融合了多种不同的空间阵型关系的群体行为表征包括：

8.根据权利要求1所述的基于阵型引导行为交互学习的群体行为识别方法，其特征在于，所述构建损失函数来衡量模型预测的群体行为类别与真实群体行为类别标签之间的差异包括：

9.根据权利要求1所述的基于阵型引导行为交互学习的群体行为识别方法，其特征在于，所述进行迭代训练和优化网络参数，使定义的损失函数达到最小包括：

10.基于阵型引导行为交互学习的群体行为识别系统，其特征在于，包括：

...

【技术特征摘要】

1.基于阵型引导行为交互学习的群体行为识别方法，其特征在于，包括：

【专利技术属性】
技术研发人员：谢伟，宁敦博，孙昊，
申请(专利权)人：华中师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人