当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统技术方案

技术编号:35485483 阅读:41 留言:0更新日期:2022-11-05 16:38
本发明专利技术涉及一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统,包括:获取可穿戴传感器数据并进行处理:将可穿戴传感器数据的一维时间序列信号转换为二维图像表示;搭建多模态注意力空洞卷积核残差网络;训练教师网络;搭建学生网络;构建小波蒸馏损失,通过最小化小波蒸馏损失、交叉熵损失来训练学生网络;通过训练好的学生网络对可穿戴传感器

【技术实现步骤摘要】
一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统


[0001]本专利技术涉及一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法及系统,属于行为识别、传感器技术、机器学习等交叉


技术介绍

[0002]随着深度学习和计算机视觉的发展,行为识别由于其在视频监控系统、视频检索、人机交互等领域的广泛应用而受到广泛关注,尤其是基于视频和图像的行为识别方法和模型被广泛应用到现实生活领域。然而,首先,基于视觉传感器的方法很大程度上依赖视频、图像的质量。若摄像头分辨率低或被遮挡,获取的图像或视频质量差,很容易影响行为识别的效果,这也是视频行为识别方法在实际应用中的瓶颈。其次,基于视频的行为识别方法计算量大,需要有复杂计算能力的硬件设备支持,增加了成本。除此之外,针对像银行等需要隐私保护的场所,视觉传感器数据不可得的情况下,基于视频的行为识别方法便无法实现。基于可穿戴传感器方法可以解决视频行为识别方法的问题。通过智能手表或者智能手机中的传感器获得基于时间的三轴加速度、陀螺仪、方向信号等一维数据来获取人的行为变化。基于可穿戴传感器的行为识别方法不依赖于视频和图像,提供了在隐私保护的场景下进行行为识别的可能性。
[0003]随着智慧城市和智慧医疗的普及和需求的增加,基于可穿戴传感器的人体行为识别已经成为了人类活动认知的关键研究领域。虽然已经提出了一些基于可穿戴传感器的行为识别方法,并取得了良好的效果,但这些方法大多只考虑了可穿戴传感器的时间序列数据,对视觉传感器与可穿戴传感器数据之间的互补关系考虑较少。因此,利用来自视觉传感器和可穿戴传感器不同模态的动作信息,来提高行为的识别性能是相当重要的。

技术实现思路

[0004]针对现有技术的不足,本专利技术提出了一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法。
[0005]本专利技术提出了一种基于交叉注意力的多模态小波知识蒸馏算法,充分利用可穿戴传感器和视觉传感器信息,通过多模态交叉注意力进行不同模态信息的充分融合,利用小波知识蒸馏指导视频进行识别。
[0006]本专利技术提出了一种用于可穿戴传感器和视频数据的基于交叉注意力的多模态小波知识蒸馏模型。该模型的贡献是:1)通过空洞卷积、注意力机制构造卷积网络对可穿戴传感器数据进行特征提取,增大感受野;2)通过交叉注意力模块针对多个模态的可穿戴传感器数据进行融合,以获取到不同模态的互补信息,为下一步蒸馏提供更多的先验知识;3)通过离散小波变换将教师网络和学生网络的最后一个池化层替换,为了减少噪声,只保留低频特征,提取有用信息,再通过蒸馏来指导学生网络的视频数据进行行为识别,提高识别性能。
[0007]术语解释:
[0008]1、ImageNet数据集,是一个计算机视觉数据集,是由斯坦福大学的李飞飞教授带领创建。该数据集包合14,197,122张图片和21,841个Synset索引。Synset是WordNet层次结构中的一个节点,它又是一组同义词集合。ImageNet数据集一直是评估图像分类算法性能的基准。ImageNet数据集是为了促进计算机图像识别技术的发展而设立的一个大型图像数据集。2016年ImageNet数据集中已经超过干万张图片,每一张图片都被手工标定好类别。ImageNet数据集中的图片涵盖了大部分生活中会看到的图片类别。ImageNet最初是拥有超过100万张图像的数据集。
[0009]2、BNInception网络,是CNN分类器发展史上一个重要的里程碑。在Inception出现之前,大部分流行CNN仅仅是把卷积层堆叠得越来越多,使网络越来越深,以此希望能够得到更好的性能。Inception的第二个版本也称作BN

Inception,主要是引入了深度学习的一项重要的技术 Batch Normalization(BN)批处理规范化。BN技术的使用,使得数据在从一层网络进入到另外一层网络之前进行规范化,可以获得更高的准确率和训练速度。
[0010]3、VGG网络,是牛津大学计算机视觉组和Google DeepMind公司的研究员仪器研发的深度卷积神经网络。VGG主要探究了卷积神经网络的深度和其性能之间的关系,通过反复堆叠3*3的小卷积核和2*2的最大池化层,VGGNet成功的搭建了16

19层的深度卷积神经网络。与之前的网络结构相比,错误率大幅度下降;同时,VGG的泛化能力非常好,在不同的图片数据集上都有良好的表现。到目前为止,VGG依然经常被用来提取特征图像。
[0011]4、ResNet网络,由微软研究院的何恺明、张祥雨、任少卿、孙剑提出。研究动机是为了解决深度网络的退化问题,不同于过去的网络是通过学习去拟合一个分布,ResNet通过学习去拟合相对于上一层输出的残差。
[0012]本专利技术的技术方案为:
[0013]一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法,包括步骤如下:
[0014]获取可穿戴传感器数据并进行处理:将可穿戴传感器数据的一维时间序列信号转换为二维图像表示;
[0015]搭建多模态注意力空洞卷积核残差网络即教师网络;
[0016]训练教师网络;
[0017]搭建学生网络;
[0018]最小化小波蒸馏损失、交叉熵损失来训练学生网络;
[0019]通过训练好的学生网络对可穿戴传感器

视频行为进行识别,得到识别结果。
[0020]根据本专利技术优选的,可穿戴传感器数据处理,包括:
[0021]首先,可穿戴传感器数据有三个轴向时间序列信号(x,y,z),定义其中一个轴向信号为 X={x1,

,x
n
},使用最小

最大归一化方法将原始信号X归一化到区间[

1,1]中,得到归一化信号如式(I)所示:
[0022][0023]然后,用变换函数g将归一化信号变换到极坐标系统,它表示归一化振幅的余弦
角和从时间t开始的半径,如式(Ⅱ)所示:
[0024][0025]t
i
是指时间戳,θ
i
是指归一化振幅的余弦角;
[0026]通过点和点之间的三角和获取时间间隔之间的相关系数,相关系数通过向量之间夹角的余弦计算,时间i和j之间的相关系数用cos(φ
i

j
)来计算,φ
i
、φ
j
分别为时间i和j的归一化振幅的余弦角;
[0027]格莱姆角场的矩阵定义为G,如式(III)所示:
[0028][0029]假设每个长度为m的三轴传感器数据都转化为一个大小为m
×
m的GAF矩阵,将三轴传感器数据的GAF矩阵G组装为大小为m
×
m
×
3的三通道图像表示P={G
x
,G
y
,G
z
...

【技术保护点】

【技术特征摘要】
1.一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法,其特征在于,包括步骤如下:获取可穿戴传感器数据并进行处理:将可穿戴传感器数据的一维时间序列信号转换为二维图像表示;搭建多模态注意力空洞卷积核残差网络即教师网络;训练教师网络;搭建学生网络;最小化小波蒸馏损失、交叉熵损失来训练学生网络;通过训练好的学生网络对可穿戴传感器

视频行为进行识别,得到识别结果。2.根据权利要求1所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法,其特征在于,可穿戴传感器数据处理,包括:首先,可穿戴传感器数据有三个轴向时间序列信号(x,y,z),定义其中一个轴向信号为X={x1,

,x
n
},使用最小

最大归一化方法将原始信号X归一化到区间[

1,1]中,得到归一化信号如式(I)所示:然后,用变换函数g将归一化信号变换到极坐标系统,它表示归一化振幅的余弦角和从时间t开始的半径,如式(Ⅱ)所示:t
i
是指时间戳,θ
i
是指归一化振幅的余弦角;通过点和点之间的三角和获取时间间隔之间的相关系数,相关系数通过向量之间夹角的余弦计算,时间i和j之间的相关系数用cos(φ
i

j
)来计算,φ
i
、φ
j
分别为时间i和j的归一化振幅的余弦角;格莱姆角场的矩阵定义为G,如式(III)所示:假设每个长度为m的三轴传感器数据都转化为一个大小为m
×
m的GAF矩阵,将三轴传感器数据的GAF矩阵G组装为大小为m
×
m
×
3的三通道图像表示P={G
x
,G
y
,G
z
};m为三轴传感器数据的长度,G
x
、G
y
、G
z
分别是三轴传感器数据x轴、y轴和z轴的GAF矩阵。3.根据权利要求1所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法,其特征在于,多模态注意力空洞卷积核残差网络包括1个卷积层、1个BN层、1个激活函数层、4个Max Pooling层、5个SADRM模块、1个DWT模块、1个模态融合模块、1个全连接层;模态融合模块包括多个CVA模块;通过卷积层、BN层、激活函数层、SADRM模块、Max Pooling层、DWT模块的搭建进行可穿戴传感器数据的特征提取,Max Pooling层进行下采样操作,DWT模块进行小波变换,多个
CVA模块处理不同模态间的融合,从多个CVA模块获取的融合后的特征通过级联输入到全连接层。4.根据权利要求3所述的一种基于交叉注意力的多模态融合小波知识蒸馏的视频行为识别方法,其特征在于,SADRM模块包括1*1卷积层、堆叠的一个1*1卷积层和一个3*3卷积层、一个LKA模块、堆叠的2个扩张率为2的3*3空洞卷积层和堆叠的2个扩张率为4的3*3空洞卷积层;教师网络的上一层特征图输入到SADRM模块中,分别经过上述各部分的计算处理,将得到的5个计算结果和输入特征图进行相加,形成快捷连接,最终得到SADRM模块的输出Stage,如式(

)所示:式(

)中,x为上一个阶段的输入,Conv1×1表示1
×
1卷积操作,Conv3×3表示3
×
3卷积操作,LKA表示Large Kernel Attention操作,Dila3×3表示3
×
3空洞卷积操作;进一步优选的,SADRM模块中,对于堆叠的卷积层,假设第i层的感受野为RF
i
=a
1,i
×
a
2,i
,a
1,i
、a
2,i
分别指感受野的长和宽,第i+1层的卷积核尺寸为k
i+1
×
k
i+1
,第i+1层的空洞卷积扩张率为d
i+1
,则第i+1层的感受野RF
i+1
如式(V)所示:RF
i+1
=[a
1,i
+(k
i+1

1)d
i+1
]
×
[a
2,i
+(k
i+1

1)d
i+1
] (V)式(V)中,RF0=1
×
1代表输入层的感受野;进一步优选的,LKA模块如式(VI)、式(VII)所示:Atten=Conv1×1(DW

D

Conv(DW

Conv(X)))
ꢀꢀ
(VI)式(VI)、式(VII)中,是输入特征,DW

Conv是深度卷积,DW

D

Conv是深度膨胀卷积,Conv1×1代表一维通道卷积,是注意力映射,代表每个特...

【专利技术属性】
技术研发人员:李玉军权振振刘治
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1