一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统技术方案

技术编号：35485483 阅读：41 留言：0更新日期：2022-11-05 16:38

本发明专利技术涉及一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统，包括：获取可穿戴传感器数据并进行处理：将可穿戴传感器数据的一维时间序列信号转换为二维图像表示；搭建多模态注意力空洞卷积核残差网络；训练教师网络；搭建学生网络；构建小波蒸馏损失，通过最小化小波蒸馏损失、交叉熵损失来训练学生网络；通过训练好的学生网络对可穿戴传感器

全部详细技术资料下载

【技术实现步骤摘要】
一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统

[0001]本专利技术涉及一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统，属于行为识别、传感器技术、机器学习等交叉

技术介绍

[0002]随着深度学习和计算机视觉的发展，行为识别由于其在视频监控系统、视频检索、人机交互等领域的广泛应用而受到广泛关注，尤其是基于视频和图像的行为识别方法和模型被广泛应用到现实生活领域。然而，首先，基于视觉传感器的方法很大程度上依赖视频、图像的质量。若摄像头分辨率低或被遮挡，获取的图像或视频质量差，很容易影响行为识别的效果，这也是视频行为识别方法在实际应用中的瓶颈。其次，基于视频的行为识别方法计算量大，需要有复杂计算能力的硬件设备支持，增加了成本。除此之外，针对像银行等需要隐私保护的场所，视觉传感器数据不可得的情况下，基于视频的行为识别方法便无法实现。基于可穿戴传感器方法可以解决视频行为识别方法的问题。通过智能手表或者智能手机中的传感器获得基于时间的三轴加速度、陀螺仪、方向信号等一维数据来获取人的行为变化。基于可穿戴传感器的行为识别方法不依赖于视频和图像，提供了在隐私保护的场景下进行行为识别的可能性。
[0003]随着智慧城市和智慧医疗的普及和需求的增加，基于可穿戴传感器的人体行为识别已经成为了人类活动认知的关键研究领域。虽然已经提出了一些基于可穿戴传感器的行为识别方法，并取得了良好的效果，但这些方法大多只考虑了可穿戴传感器的时间序列数据，对视觉传感器与可穿戴传感器数据之间的互补关系考

【技术保护点】

【技术特征摘要】
1.一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法，其特征在于，包括步骤如下：获取可穿戴传感器数据并进行处理：将可穿戴传感器数据的一维时间序列信号转换为二维图像表示；搭建多模态注意力空洞卷积核残差网络即教师网络；训练教师网络；搭建学生网络；最小化小波蒸馏损失、交叉熵损失来训练学生网络；通过训练好的学生网络对可穿戴传感器
‑
视频行为进行识别，得到识别结果。2.根据权利要求1所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法，其特征在于，可穿戴传感器数据处理，包括：首先，可穿戴传感器数据有三个轴向时间序列信号(x,y,z)，定义其中一个轴向信号为X＝{x1,
…
,x
n
}，使用最小
‑
最大归一化方法将原始信号X归一化到区间[
‑
1,1]中，得到归一化信号如式(I)所示：然后，用变换函数g将归一化信号变换到极坐标系统，它表示归一化振幅的余弦角和从时间t开始的半径，如式(Ⅱ)所示：t
i
是指时间戳，θ
i
是指归一化振幅的余弦角；通过点和点之间的三角和获取时间间隔之间的相关系数，相关系数通过向量之间夹角的余弦计算，时间i和j之间的相关系数用cos(φ
i
+φ
j
)来计算，φ
i
、φ
j
分别为时间i和j的归一化振幅的余弦角；格莱姆角场的矩阵定义为G，如式(III)所示：假设每个长度为m的三轴传感器数据都转化为一个大小为m
×
m的GAF矩阵，将三轴传感器数据的GAF矩阵G组装为大小为m
×
m
×
3的三通道图像表示P＝{G
x
,G
y
,G
z
}；m为三轴传感器数据的长度，G
x
、G
y
、G
z
分别是三轴传感器数据x轴、y轴和z轴的GAF矩阵。3.根据权利要求1所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法，其特征在于，多模态注意力空洞卷积核残差网络包括1个卷积层、1个BN层、1个激活函数层、4个Max Pooling层、5个SADRM模块、1个DWT模块、1个模态融合模块、1个全连接层；模态融合模块包括多个CVA模块；通过卷积层、BN层、激活函数层、SADRM模块、Max Pooling层、DWT模块的搭建进行可穿戴传感器数据的特征提取，Max Pooling层进行下采样操作，DWT模块进行小波变换，多个
CVA模块处理不同模态间的融合，从多个CVA模块获取的融合后的特征通过级联输入到全连接层。4.根据权利要求3所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法，其特征在于，SADRM模块包括1*1卷积层、堆叠的一个1*1卷积层和一个3*3卷积层、一个LKA模块、堆叠的2个扩张率为2的3*3空洞卷积层和堆叠的2个扩张率为4的3*3空洞卷积层；教师网络的上一层特征图输入到SADRM模块中，分别经过上述各部分的计算处理，将得到的5个计算结果和输入特征图进行相加，形成快捷连接，最终得到SADRM模块的输出Stage，如式(
Ⅵ
)所示：式(
Ⅵ
)中，x为上一个阶段的输入，Conv1×1表示1
×
1卷积操作，Conv3×3表示3
×
3卷积操作，LKA表示Large Kernel Attention操作，Dila3×3表示3
×
3空洞卷积操作；进一步优选的，SADRM模块中，对于堆叠的卷积层，假设第i层的感受野为RF
i
＝a
1,i
×
a
2,i
，a
1,i
、a
2,i
分别指感受野的长和宽，第i+1层的卷积核尺寸为k
i+1
×
k
i+1
，第i+1层的空洞卷积扩张率为d
i+1
，则第i+1层的感受野RF
i+1
如式(V)所示：RF
i+1
＝[a
1,i
+(k
i+1
‑
1)d
i+1
]
×
[a
2,i
+(k
i+1
‑
1)d
i+1
] (V)式(V)中，RF0＝1
×
1代表输入层的感受野；进一步优选的，LKA模块如式(VI)、式(VII)所示：Atten＝Conv1×1(DW
‑
D
‑
Conv(DW
‑
Conv(X)))
ꢀꢀ
(VI)式(VI)、式(VII)中，是输入特征，DW
‑
Conv是深度卷积，DW
‑
D
‑
Conv是深度膨胀卷积，Conv1×1代表一维通道卷积，是注意力映射，代表每个特...

【专利技术属性】
技术研发人员：李玉军，权振振，刘治，
申请(专利权)人：山东大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人