一种基于跨模态重建的平衡多模态视频分析方法及系统技术方案

技术编号：40606597 阅读：2 留言：0更新日期：2024-03-12 22:13

本发明专利技术公开了一种基于跨模态重建的平衡多模态视频分析方法及系统，该方法首先分别对视频和语音片段进行预处理操作，得到视觉模态的特征矩阵V和语音模态的特征矩阵A。其次将特征矩阵V和特征矩阵A，输入到跨模态重建编码器，生成新模态N。然后将新模态N分别与特征矩阵V以及特征矩阵A进行跨模态对比学习，再进行多模态融合得到融合后的特征矩阵F<supgt;AV</supgt;。最后将特征矩阵F<supgt;AV</supgt;输入到多模态视频分析网络，通过计算模态间的差异化比率，对模型的训练过程执行多模态平衡调制策略，得到视频分析结果。本发明专利技术提高了整体的准确率，充分解决了多模态之间异质性差异的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于多模态学习及深度学习，特别是涉及一种基于跨模态重建的平衡多模态视频分析方法及系统。

技术介绍

1、多模态视频分析是多模态学习及深度学习
中一种复杂的学习范式，多模态数据中模态之间包含着丰富的关联性，因此受到了越来越多的关注。多模态视频分析利用其模态之间的关联性来提高多模态模型的性能，然而在模型训练过程中发现多模态学习方法即使包含了模态间的相关信息，也不能有效地提高其性能，这是由于模态间存在异质性差异从而造成的模态贡献不平衡问题。因此，构建一种可以使多模态达到相对平衡的多模态视频分析方法对提升多模态模型的性能具有重大的意义。

2、在多模态视频分析上已经有了一定的研究，但是绝大多数的多模态视频分析都遵循统一的框架，通过不同的模态编码器来提取不同模态的数据特征，将模态特征进行多模态融合，利用融合后的多模态特征实现多模态视频分析。这样的做法忽略了多模态之间的关联性，使得模态之间只进行简单的多模态融合，但是却没有捕获多模态间的互补信息，导致多种模态在模型训练过程中存在贡献不平衡的问题。本专利技术通过利用跨模态重建生成新模态，与原始模态进行跨模态对比学习，捕获多模态间的互补信息从而提升多模态的交互能力，执行多模态平衡调制策略，有效地提升了多模态视频分析的效果，解决了多模态学习中贡献不平衡的问题。

技术实现思路

1、为了解决上述多模态视频分析中两种或多种模态间贡献不平衡的问题，本专利技术提出了一种基于跨模态重建的平衡多模态视频分析方法及系统，通过跨模态重建生成新模

2、第一方面，一种基于跨模态重建的平衡多模态视频分析方法，其特征在于，具体包括如下步骤：

3、步骤一：对于多模态数据集，分别对视频和语音片段进行预处理操作，得到视觉模态的特征矩阵v和语音模态的特征矩阵a。

4、步骤二：将视觉模态v和语音模态a输入到跨模态重建编码器，进行跨模态重建生成新模态n。

5、步骤三：将新模态n分别与视觉模态v以及语音模态a进行跨模态对比学习，得到跨模态对比学习之后的视觉模态v′和语音模态a′，之后将视觉模态v′和语音模态a′进行多模态融合得到融合后的特征矩阵fav。

6、步骤四：将多模态融合后的特征矩阵fav输入到多模态视频分析网络，通过计算模态间的差异化比率，对模型的训练过程执行多模态平衡调制策略，得到的视频分析结果。

7、在模型训练阶段，通过分别计算视觉模态和语音模态的跨模态相似度作为单个模态的表示，从而得到模态间的差异化比率；根据差异化比率，对整个模型的训练过程执行多模态平衡调制策略，直到完成整个模型优化过程为止。

8、作为优选，步骤一的过程具体如下：

9、对于多模态数据集，对视频片段进行分帧操作，得到2d帧视觉特征vpre；将视觉特征vpre输入到视觉编码器，得到视觉模态的特征矩阵v。

10、对语音片段进行分帧操作，并使用短时傅里叶变换分析每一帧信号的频率信息，将每一帧的频率信息拼接，获取语音的spectrogram语音特征apre，将语音特征apre输入到语音编码器，得到语音模态的特征矩阵a。

11、作为优选，步骤二的过程具体如下：

12、在步骤一得到的视觉模态的特征矩阵和语音模态的特征矩阵，对它们进行维度转换后作为跨模态重建编码器的输入，所述的跨模态重建编码器采用级联自编码器结构，包括n个相同结构的自编码器。

13、最终通过跨模态重建编码器得到跨模态重建生成的新模态，新模态包含了视觉模态和语音模态的隐藏不变特征。

14、作为优选，步骤三的过程如下：

15、将对于在根据步骤一得到的视觉模态和语音模态和在步骤二得到的跨模态重建生成的新模态，分别进行新模态和视觉模态的对比学习以及新模态和语音模态的对比学习，使得正例样本对的特征在特征空间中尽可能地靠近，而负例样本对的特征在特征空间中尽可能地远离。

16、通过跨模态对比学习得到的视觉模态的特征矩阵和语音模态的特征矩阵以按维度拼接的方式进行多模态融合。

17、作为优选，步骤四的过程具体如下：

18、将步骤三得到的视觉模态和语音模态分别计算其跨模态相似度，跨模态相似度采用余弦相似度，其计算公式为：其中为视觉编码器的权重矩阵，为语音模态的特征矩阵，||·||为l2范数。

19、模态间的差异化比率基于跨模态相似度，其公式表示如下：

20、

21、其中，cross-mcosine(·)为跨模态相似度，b为偏置项，表示k为softmax的结果与真实标签yi若相等则表示乘以系数1，若不相等表示乘以(0,1)之间的任意数值。

22、

23、其中，为语音模态经过softmax(·)归一化后的跨模态相似度，用来表示单个模态，bi表示训练的批次，为模态间的差异化比率，用来作为多模态平衡调制策略的条件系数。

24、根据上述模态间的差异化比率执行多模态平衡调制策略，其公式表示如下：

25、

26、其中，α为可学习的超参数，sigmoid(·)为激活函数。

27、将上述条件系数添加到随机梯度下降优化方法中，进行模型中参数的更新，其公式表示如下：

28、

29、其中，η为学习率，为计算得到的梯度，使用条件系数进行模型梯度值的动态更新，使其参与到整个模型的优化过程，从而实现趋于平衡的多模态视频分析方法。

30、另一方面，本专利技术还提出了一种基于跨模态重建的平衡多模态视频分析系统，包括数据预处理模块、多模态特征提取模块、跨模态重建生成模块、跨模态对比学习模块、多模态特征融合模块和多模态视频分析模块。

31、数据预处理模块，用于对多模态数据集进行数据预处理，得到视频和语音的初始特征数据。

32、多模态特征提取模块，用于对预处理得到的初始特征数据进行特征提取，得到对应的多模态特征。

33、跨模态重建生成模块，用于利用多模态特征进行跨模态重建生成新模态；

34、跨模态对比学习模块，用于将原始模态与新模态进行跨模态对比学习，得到更高关联性的多模态特征。

35、多模态特征融合模块，用于将跨模态对比学习后的多模态特征进行特征融合，得到融合特征。

36、多模态视频分析模块，用于将融合特征作为输入，得到多模态视频分析结果。

37、本专利技术具有以下有益效果：

38、1、本专利技术是一种平衡多模态视频分析方法，相较于传统的多模态视频分析方法，可以使得多模态之间在训练过程中达到模态相对平衡的状态，从而提高了整体的模型准确率。

39、2、本专利技术提供了跨模态重建编码器模块，跨模态重建编码器使用视觉模态和语音模态的隐藏不变特征生成新模态，同时新模态作为中间模态能更好地使多模态之间本文档来自技高网...

【技术保护点】

1.一种基于跨模态重建的平衡多模态视频分析方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于跨模态重建的平衡多模态视频分析方法，其特征在于，步骤一所述预处理具体过程为：

3.根据权利要求2所述的基于跨模态重建的平衡多模态视频分析方法，其特征在于，步骤二中所述跨模态重建编码器采用级联自编码器结构，包括n个相同结构的自编码器。

4.根据权利要求3所述的基于跨模态重建的平衡多模态视频分析方法，其特征在于，在步骤三中，通过跨模态对比学习，得到的视觉模态特征矩阵V′和语音模态特征矩阵A′，以按维度拼接的方式进行多模态融合。

5.根据权利要求4所述的基于跨模态重建的平衡多模态视频分析方法，其特征在于，步骤四的过程具体如下：

6.一种基于跨模态重建的平衡多模态视频分析系统，用于实现权利要求1至5任一所述的方法，其特征在于，包括数据预处理模块、多模态特征提取模块、跨模态重建生成模块、跨模态对比学习模块、多模态特征融合模块和多模态视频分析模块；

【技术特征摘要】

1.一种基于跨模态重建的平衡多模态视频分析方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于跨模态重建的平衡多模态视频分析方法，其特征在于，步骤一所述预处理具体过程为：

4.根据权利要求3所述的基于跨模态重建的平衡多模态视频分析方法，其特征在于，在步骤...

【专利技术属性】
技术研发人员：陈崇忠，林菲，
申请(专利权)人：杭州电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人