一种基于语义推理的行为检测方法及系统技术方案

技术编号：40027519 阅读：17 留言：0更新日期：2024-01-16 17:43

本发明专利技术涉及一种基于语义推理的行为检测方法及系统，包括：获取待检测的视频数据，对视频数据进行抽帧操作得到第一视频数据样本，提取目标行为的运动特征和目标行为的空间特征；并利用非局部神经网络注意力机制进行特征增强融合得到目标行为的综合特征；获取原始视频数据训练集，根据各类别的行为标签在原始视频数据训练集中的共现关系构建非对称共现矩阵；利用语义关系推理模块SIM进行语义关系推理得到各类别行为标签的语义关系信息词向量表示；根据各类别行为标签的语义关系信息词向量表示和目标行为的综合特征计算目标在各类别行为标签的得分；基于预设的得分阈值输出目标在待检测的视频数据中的所有行为。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于行为检测领域，特别是涉及一种基于语义推理的行为检测方法及系统。

技术介绍

1、视频理解是计算机视觉的一个重要分支，旨在让计算机能够理解和分析视频内容，类似于人类的视觉感知和理解。其中，对目标行为进行分析是视频理解领域中最重要的方向之一，主要包含行为识别、时序行为定位和时空行为检测三个子领域。

2、行为识别旨在识别给定视频中目标的不同动作或行为类别。这通常是一个分类问题，主要识别视频中的行为类别，而不一定关注行为发生的时间或位置；时序行为定位旨在视频中定位和识别特定行为的开始和结束时间。它主要关注行为在时间维度上的定位，而不一定考虑行为的具体位置。

3、而在现实世界的场景中，往往具有多目标、多并发目标的特点，简单的行为识别和时序行为定位无法在现实场景中得到广泛应用。时空行为检测同时关注时间和空间维度，因此需要网络理解行为在视频中的时间轴上的演变以及在视频帧中的位置。

4、现有的时空行为检测方法包括以下内容：(1)视频特征提取：从输入视频中提取丰富的视觉时空特征。这通常包括使用卷积神经网络(cnn)来提取每一帧的空间特征，并使用循环神经网络(rnn)或3d cnn来捕捉帧之间的时间关系。这些特征可以捕捉到动作的局部和全局信息。(2)行为类别分类：基于提取的视觉特征，进行行为的类别分类。这一步骤可以采用常规的分类网络，将特征映射到对应的行为类别编号上。(3)行为时序定位：使用回归网络或者类似于目标检测的方法，来估计每个行为的开始和结束时间。这使得网络能够准确定位动作的时间范围。

5、总的来说，现有的时空行为检测方法通常采用强大的骨干网络提取高质量的视觉特征，然后进行视觉特征之间的交互，最终映射到一组行为类别的分类上。但是这些方法忽略了对于其他模态的信息的利用，比如，描述行为的自然语言标签中同样包含语义关系。如何利用自然语言模态的信息，挖掘行为之间的语义关系，提高行为检测的准确性是亟待解决的问题。

技术实现思路

1、为了解决
技术介绍
中存在的问题，本专利技术提供了一种基于语义推理的行为检测方法及系统，结合自然语言模态和视觉模态的信息，通过推理标签间的语义关系，指导网络进行目标行为的多标签分类。

2、为了实现上述技术目的，本专利技术的一方面提供如下技术方案：

3、s1：获取待检测的视频数据，对视频数据进行抽帧操作得到预设帧数的视频帧序列；并对视频帧序列进行数据增强处理得到第一视频数据样本；

4、s2：根据第一视频数据样本利用视觉特征提取模型提取目标行为的运动特征和目标行为的空间特征；

5、s3：利用非局部神经网络注意力机制对目标行为的空间特征和目标行为的运动特征进行特征增强融合得到目标行为的综合特征；

6、s4：获取原始视频数据训练集，所述原始视频数据训练集中包括多个原始视频数据，每个原始视频数据中包含多个目标，每个目标包含多个行为标签；

7、s5：根据各类别的行为标签在原始视频数据训练集中的共现关系构建非对称共现矩阵；

8、s6：对各类别的行为标签，利用加载预训练权重的文本编码模型，对各类别行为标签进行embedding，得到各类别行为标签的词向量表示；

9、s7：根据非对称共现矩阵和各类别行为标签的词向量表示利用语义关系推理模块进行语义关系推理得到各类别行为标签的语义关系信息词向量表示；

10、s8：根据各类别行为标签的语义关系信息词向量表示和目标行为的综合特征计算目标在各类别行为标签的得分，基于预设的得分阈值输出目标在待检测的视频数据中的所有行为。

11、优选地，所述利用视觉特征提取模型提取目标行为的运动特征和目标行为的空间特征包括：

12、所述视觉特征提取模型采用训练好的i3d神经网络，i3d神经网络包括：rgb支路和optical flow支路；

13、对第一视频数据样本按照第一采样间隔采样得到第二视频数据样本，输入13d神经网络识别模型中的rgb支路得到目标行为的空间特征

14、对第一视频数据样本按照第二采样间隔采样得到第三视频数据样本，输入13d神经网络识别模型中的optical flow支路，得到目标行为的运动特征

15、其中，第一采样间隔等于第二采样间隔，cr和cf分别代表空间特征frgb和运动特征fflow的通道数；tr和tf分别表示空间特征frgb和运动特征fflow的时间长度；h×w表示空间特征frgb和运动特征fflow的宽度和长度。

16、优选地，所述利用非局部神经网络注意力机制对目标行为的空间特征和目标行为的运动特征进行特征增强融合包括：

17、s31：对空间特征frgb和运动特征fflow分别进行平均池化操作得到特征fflow′和特征frgb′，将特征fflow′和特征frgb′在通道维度上进行拼接，得到拼接特征f1；

18、s32：将拼接特征f1输入非局部神经网络注意力机制模块，通过线性变换将拼接特征f1映射为三组张量q、k和v；

19、s33：通过计算查询q和键k之间的相似性，得到相似性分数矩阵p＝q·kt，使用相似性分数矩阵p计算注意力权重矩阵a＝softmax(p)；再根据注意力权重矩阵a对v进行加权求和，得到注意力增强特征f2＝a·v；

20、s34：将注意力增强特征f2和拼接特征f1进行特征相加后，通过roi_align层捕获第一视频数据中所有目标的位置信息，得到目标行为的综合特征fatt∈rn×c×h×w，n表示roi_align层在第一视频数据中捕获的目标数量，c表示目标行为综合特征的通道数。

21、优选地，所述通过线性变换将拼接特征f1映射为三组张量q、k和v包括：

22、q＝wq·f1

23、k＝wk·f1

24、v＝wv·f1

25、其中，wq表示查询权重矩阵，wk层表示键权重矩阵，wv表示值权重矩阵表示层。

26、优选地，所述构建非对称共现矩阵包括：

27、s51：统计各类别的行为标签在原始视频数据训练集中出现的次数；

28、s52：遍历原始视频数据训练集中所有的原始视频数据，统计各类别的行为标签之间发生共现关系的总次数wij，所述共现关系表示为若任意两个类别的行为标签ci和cj出现在同一个原始视频数据中，则行为标签ci和cj发生了一次共现关系；

29、s53：根据各类别的行为标签之间发生共现关系的总次数构建初始共现矩阵m[i][j]＝m[j][i]＝wij；

30、s54：根据各类别的行为标签在原始视频数据训练集中出现的次数为初始共现矩阵融入方向信息得到非对称共现矩阵m′＝m/n，m代表行为标签的类别数量，ni表示第i个类别的行为标签出现在原始视频数据训练集中出现的次数。

31、优选地，所述根据非对称共现矩阵和各类别行为标签的词向量表示利用语义关系推理模块进行语本文档来自技高网...

【技术保护点】

1.一种基于语义推理的行为检测方法，其特征在于，包括：

2.根据权利要求1所述的一种基于语义推理的行为检测方法，其特征在于，所述利用视觉特征提取模型提取目标行为的运动特征和目标行为的空间特征包括：

3.根据权利要求2所述的一种基于语义推理的行为检测方法，其特征在于，所述利用非局部神经网络注意力机制对目标行为的空间特征和目标行为的运动特征进行特征增强融合包括：

4.根据权利要求3所述的一种基于语义推理的行为检测方法，其特征在于，所述通过线性变换将拼接特征F1映射为三组张量Q、K和V包括：

5.根据权利要求1所述的一种基于语义推理的行为检测方法，其特征在于，所述构建非对称共现矩阵包括：

6.根据权利要求1所述的一种基于语义推理的行为检测方法，其特征在于，所述根据非对称共现矩阵和各类别行为标签的词向量表示利用语义关系推理模块进行语义关系推理包括：

7.根据权利要求1所述的一种基于语义推理的行为检测方法，其特征在于，所述各类别行为标签的语义关系信息词向量表示包括：

8.根据权利要求7所述的一种基于语义推理

9.一种基于语义推理的行为检测系统，所述系统基于权利要求1-8任一所述的一种基于语义推理的行为检测方法，其特征在于，包括：

...

【技术特征摘要】

1.一种基于语义推理的行为检测方法，其特征在于，包括：

4.根据权利要求3所述的一种基于语义推理的行为检测方法，其特征在于，所述通过线性变换将拼接特征f1映射为三组张量q、k和v包括：

5.根据权利要求1所述的一种基于语义推理的行为检测方法，其特...

【专利技术属性】
技术研发人员：钟福金，吴旖旎，于洪，卢展韬，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人