一种基于信息瓶颈的多模态数据融合控制优化系统及方法技术方案

技术编号：40149326 阅读：8 留言：0更新日期：2024-01-24 01:06

本发明专利技术公开了一种基于信息瓶颈的多模态数据融合控制优化系统及方法，涉及多模态数据融合技术领域，解决了模态间收敛速度不一致的技术问题，其技术方案要点是通过引入信息瓶颈理论来衡量每个模态的学习情况，同时考虑了特征分别相对于输入和输出的学习情况，即该特征既要压缩输入又要预测输出；同时根据信息瓶颈理论设计IB指标能够全面准全的监测模态特征学习的收敛速度。另外，本申请采用调整各个模态的学习率的方式来控制不同模态的特征学习的收敛速度。根据每个模态的IB指标差异计算出自适应平衡系数，引入到每个模态的梯度更新中，能够实现动态的平衡，从而缓解了模态间收敛速度的不一致。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及多模态数据融合，尤其涉及一种基于信息瓶颈的多模态数据融合控制优化系统及方法。

技术介绍

1、感知是人类学习和理解外部世界的基本方式。这种感知存在于多种模态中，因此可以获取到各种类型的数据，例如图像、音频、视频等，即多模态数据。近年来，多模态数据分析在推动人工智能研究进展方面成为一个非常有前景的研究课题。与单模态学习相比，多模态学习取得了显著进展，并在语音识别、事件检测、情感分析等许多领域发挥了竞争力强的性能。

2、然而，多模态学习仍然面临着巨大的挑战。直观上，融合不同模态数据的模型要优于单模态的模型，因为它们可以充分利用不同模态之间的互补信息来提高特征表示。一些研究发现，在某些情况下，最佳的单模态网络可能优于通过统一优化策略训练的多模态网络，这被称为模态退化。最近的许多研究试图缓解多模态融合网络的性能退化问题。大部分研究认为模态退化是由不同模态之间的收敛速度不一致引起的。如何缓解模态间收敛速度的不一致是亟需解决的问题。

技术实现思路

1、本申请提供了一种基于信息瓶颈的多模态数据融合控制优化系统及方法，其技术目的是监测不同模态的收敛差异，通过自适应调节各个模态的学习率以缓解模态间收敛速度的不一致，提高多模态数据融合的性能。

2、本申请的上述技术目的是通过以下技术方案得以实现的：

3、一种基于信息瓶颈的多模态数据融合控制优化系统，包括：

4、单模态编码器，对多模态数据的不同模态的特征进行提取；

5、信息瓶颈网络，根据

6、融合模块，将所有模态的特征进行融合，得到融合特征；

7、分类器，根据融合特征对第二交叉熵损失进行计算；

8、梯度更新模块，根据第二交叉熵损失得到各个单模态编码器的梯度更新参数，根据所述自适应平衡系数、所述梯度更新参数以及当前学习率对信息瓶颈网络、融合模块以及分类器的参数进行更新，从而实现多模态数据融合控制优化。

9、一种基于信息瓶颈的多模态数据融合控制优化方法，该方法通过基于信息瓶颈的多模态数据融合控制优化系统实现，该方法包括：

10、步骤s1：通过单模态编码器对多模态数据的不同模态的特征进行提取；

11、步骤s2：信息瓶颈网络根据不同模态的特征以及真实值对不同模态的ib指标进行计算，根据不同模态的ib指标对不同模态的自适应平衡系数进行计算；其中，所述真实值为多模态数据的标签；

12、步骤s3：融合模块将所有模态的特征进行融合，得到融合特征；

13、步骤s4：分类器根据融合特征对第二交叉熵损失进行计算；

14、步骤s5：梯度更新模块根据第二交叉熵损失得到各个单模态编码器的梯度更新参数，再根据所述自适应平衡系数、所述梯度更新参数以及当前学习率对信息瓶颈网络、融合模块以及分类器的参数进行更新，从而实现多模态数据融合控制优化。

15、进一步地，所述步骤s2中，所述信息瓶颈网络根据不同模态的特征以及真实值对不同模态的ib指标进行计算，包括：

16、步骤s211：对第i个样本的第m个模态的特征进行重参数化，表示为：

17、

18、其中，表示重参数化后的特征，表示的均值，表示的协方差，∈表示标准正态高斯随机变量，且

19、步骤s212：根据重参数化后的特征和所述真实值得到第一交叉熵损失li，表示为：

20、

21、其中，fc表示全连接层，softmax表示softmax激活函数，ce表示交叉熵损失函数；步骤s213：对ib指标进行计算，表示为：

22、

23、其中，表示第m个模态的ib指标，k表示的特征维度，β表示超参数，n表示样本总数。

24、进一步地，所述步骤s2中，所述根据不同模态的ib指标对不同模态的自适应平衡系数进行计算，包括：

25、s221：根据不同模态的ib指标对不同模态的收敛速度差异比进行计算，表示为：

26、

27、

28、其中，m表示模态总数量，表示第t次迭代时第m个模态的ib指标，表示第t次迭代时第m个模态的收敛速度差异比；

29、s222：根据收敛速度差异比对自适应平衡系数进行计算，表示为：

30、

31、其中，λ表示控制加速特征学习的程度，γ表示控制减速特征学习的程度。

32、进一步地，所述步骤s5的过程表示为：

33、

34、

35、

36、θt+1＝θt-η•vt；

37、其中，表示第t次迭代时单模态编码器的参数，表示第t+1次迭代时单模态编码器的参数，表示第t次迭代时单模态编码器的梯度更新参数，η表示第t次迭代时单模态编码器的学习率；bt表示第t次迭代时被随机选择的大小为b的小批量样本集合；表示关于bt的梯度，表示第二交叉熵损失，表示全梯度的无偏估计；α表示单模态编码器梯度更新参数的系数；θt+1表示第t+1次迭代时信息瓶颈网络、融合模块以及分类器的参数，θt表示第t次迭代时信息瓶颈网络、融合模块以及分类器的参数，vt表示第t次迭代时信息瓶颈网络、融合模块以及分类器的梯度更新参数。

38、本申请的有益效果在于：本申请所述的基于信息瓶颈的多模态数据融合控制优化系统及方法，通过引入信息瓶颈理论来衡量每个模态的学习情况，该理论同时考虑了特征分别相对于输入和输出的学习情况，即该特征既要压缩输入又要预测输出；同时根据信息瓶颈理论设计ib指标能够全面准全的监测模态特征学习的收敛速度。

39、另外，本申请采用调整各个模态的学习率的方式来控制不同模态的特征学习的收敛速度。根据每个模态的ib指标差异计算出自适应平衡系数，引入到每个模态的梯度更新中，能够实现动态的平衡，从而缓解了模态间收敛速度的不一致。

本文档来自技高网...

【技术保护点】

1.一种基于信息瓶颈的多模态数据融合控制优化系统，其特征在于，包括：

2.一种基于信息瓶颈的多模态数据融合控制优化方法，该方法通过权利要求1所述的基于信息瓶颈的多模态数据融合控制优化系统实现，其特征在于，该方法包括：

3.如权利要求2所述的方法，其特征在于，所述步骤S2中，所述信息瓶颈网络根据不同模态的特征以及真实值对不同模态的IB指标进行计算，包括：

4.如权利要求3所述的方法，其特征在于，所述步骤S2中，所述根据不同模态的IB指标对不同模态的自适应平衡系数进行计算，包括：

5.如权利要求4所述的方法，其特征在于，所述步骤S5的过程表示为：

【技术特征摘要】

1.一种基于信息瓶颈的多模态数据融合控制优化系统，其特征在于，包括：

3.如权利要求2所述的方法，其特征在于，所述步骤s2中，...

【专利技术属性】
技术研发人员：芦楠楠，谭震，韩之远，孙兴文，
申请(专利权)人：中国矿业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人