一种基于视觉-传感器注意力机制的多模态连续行为识别方法技术

技术编号：40422743 阅读：5 留言：0更新日期：2024-02-20 22:42

该发明专利技术公开了一种基于视觉‑传感器注意力机制的多模态连续行为识别方法，涉及深度学习中的连续学习领域。本发明专利技术因为对传感器模态采用针对性的时间‑频率注意力进行信息增强，并组成视觉‑传感器注意力模块，从而缓解模态之间不平衡，并且通过对增量过程中对原型进行数据增强，缓解存储原型造成过拟合的负面效果。总体达到增强多模态连续行为识别准确率的优良效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及深度学习中的连续学习领域，特别是针对多模态连续行为识别中的失衡问题提出的基于视觉-传感器模态的多模态连续行为识别方法。

技术介绍

1、深度学习技术的快速发展在多个领域取得了显著成就。可穿戴设备对深度学习的应用需求不断增加，但不断扩展功能伴随着高昂的训练成本。连续学习技术应运而生，以解决增量任务设置下的灾难性遗忘问题。然而，在多模态连续行为识别中，已经发现多模态数据会加剧连续学习的遗忘问题。模态失衡问题成为多模态连续学习中的一个挑战。

技术实现思路

1、本专利技术目的在于针对上述现有技术的不足，提出基于视觉-传感器注意力机制的多模态连续行为识别方法，用于加强弱势传感器模态的时频维度信息，并与视觉模态融合，以解决模态失衡问题。

2、本专利技术技术方案如下：

3、一种基于视觉-传感器注意力机制的多模态连续行为识别方法，包括如下步骤：

4、步骤1：采集原始图像数据，包括视觉数据和传感器数据，进行数据预处理形成训练数据集；

5、步骤2：构建特征提取器；

6、步骤3：构建时频注意力子模块；

7、步骤4：利用步骤3构建的时频注意力子模块，构建视觉-传感器注意力模块；

8、所述视觉-传感器注意力模块由时频注意力子模块、通道注意力子模块、空间注意力子模块构成，整体框架为将视觉和传感器两个模态的数据分别输入空间注意力子模块和时频注意力子模块对两个模态特征进行增强，然后对增强后特征串联输入通道注意力进行模态特征融合，定义为：

9、

10、其中，ca(·)为通道注意力子模块，sa(·)为空间注意力子模块，tfa(·)为时频注意力子模块代表总体的视觉-传感器注意力模块，zi代表全部模态编码器输出的特征，ei代表经过视觉-传感器注意力增强后的特征，∪代表特征串联，代表来自视觉模态的图片和光流的特征，代表来自传感器模态的加速度信号和陀螺仪信号短时傅里叶变换后通过编码器得到的特征；

11、步骤5：将视觉-传感器注意力模块按顺序与特征提取器级联，并且每个已知类别存储一个原型；

12、步骤6：构建增量特征混合增强方法，将存储的旧类别的原型与新类别的特征进行混合相加并送入分类器，并进行训练；

13、步骤7：输入多模态的样本，使用已经训练好的所述基于视觉-传感器多模态连续学习网络进行分类。

14、优选的是，所述步骤1中预处理包括图像尺寸调整，以及传感器数据进行短时傅里叶变换得到时频谱图输入网络。

15、优选的是，所述步骤2中特征提取器采用在epic-kitchen 100上预训练的bninception分类网络。

16、优选的是，所述步骤3中时频注意力子模块专用于传感器弱势模态，通过对传感器特征进行时间和频率维度上的池化并通过输入通道数为7、输出通道数为3的卷积层，然后进行relu，再通过输入通道数为3、输出通道数为7的卷积层，再通过sigmoid进行加权，进行对弱势传感器模态的特征增强。

17、所述步骤5中存储每个已知类别增强后的特征均值和标准差向量是因为方法属于基于原型的连续学习方法，可以有效避免隐私侵犯的问题。

18、优选的是，步骤6具体包括：任务t+1的时候，得到当前任务内类别c1有的样本的表征同时根据存储的每个旧类别的特征均值和方差生成以往任务中某旧类别c2的特征紧接着，在增量特征空间中，对旧类别所得和新类别特征作出混合增强，并同时对当前类别和原型旧类别的标签也进行混合，公式如下：

19、

20、

21、

22、其中λ∈[0,1]，服从beta分布，将上述的三种分别属于新类别、旧类别、新旧类别混合的数据都输入到线性分类器并由三个对应的损失函数lcls、lp和lm分别监督(均使用交叉熵计算方法)。特征空间中，使用新知识对原型增强后的会处于新旧类别特征之间，这样就既可以减少分类器对原型的过拟合，又可以使分类器对新旧类别更判别。总之，损失函数组成：

23、l＝ξ(lcls+lp)+(1-ξ)lm,

24、其中，ξ∈[0,1]为超参数。

25、本专利技术因为对传感器模态采用针对性的时间-频率注意力进行信息增强，并组成视觉-传感器注意力模块，从而缓解模态之间不平衡，并且通过对增量过程中对原型进行数据增强，缓解存储原型造成过拟合的负面效果。总体达到增强多模态连续行为识别准确率的优良效果。

本文档来自技高网...

【技术保护点】

1.一种基于视觉-传感器注意力机制的多模态连续行为识别方法，包括如下步骤：

2.如权利要求1所述的一种基于视觉-传感器注意力机制的多模态连续行为识别方法，其特征在于，所述步骤1中预处理包括图像尺寸调整，以及传感器数据进行短时傅里叶变换得到时频谱图输入网络。

3.如权利要求1所述的一种基于视觉-传感器注意力机制的多模态连续行为识别方法，其特征在于，所述步骤2中特征提取器采用在EPIC-KITCHEN 100上预训练的BNInception分类网络。

4.如权利要求1所述的一种基于视觉-传感器注意力机制的多模态连续行为识别方法，其特征在于，所述步骤3中时频注意力子模块专用于传感器弱势模态，通过对传感器特征进行时间和频率维度上的池化并通过输入通道数为7、输出通道数为3的卷积层，然后进行ReLU，再通过输入通道数为3、输出通道数为7的卷积层，再通过sigmoid进行加权，进行对弱势传感器模态的特征增强。

5.如权利要求1所述的一种基于视觉-传感器注意力机制的多模态连续行为识别方法，其特征在于，步骤6具体包括：任务t+1的时候，得到当前任务内

...

【技术特征摘要】

1.一种基于视觉-传感器注意力机制的多模态连续行为识别方法，包括如下步骤：

3.如权利要求1所述的一种基于视觉-传感器注意力机制的多模态连续行为识别方法，其特征在于，所述步骤2中特征提取器采用在epic-kitchen 100上预训练的bninception分类网络。

4.如权利要求1所述的一种基于视觉-传感器注意力机制的多模态连续行为识别方法，其特征在于，所述步骤3中时频注意力子模...

【专利技术属性】
技术研发人员：许林峰，程少旭，贺驰原，吴庆波，孟凡满，潘力立，李宏亮，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人