考虑模态间语义距离度量的多模态融合分类优化方法技术

技术编号:29938795 阅读:14 留言:0更新日期:2021-09-04 19:20
本发明专利技术提供一种考虑模态间语义距离度量的多模态融合分类优化方法。针对模态信息融合中构建统一语义下的特征子空间存在的融合效果不稳定、改善作用比较有限的问题,本发明专利技术基于改进的CBAM注意力机制进行自适应特征细化,采用横向结构,聚合空间及通道维度上的有效信息,进行局部语义特征加强;在此基础上,构建基于模态间语义距离的语义逼进模型,引入对模态间语义一致性判断的显式度量,减小相同语义特征对之间的分布距离,同时扩大不同语义特征对之间的分布距离;最终结合考虑模型分类性能目标与模型语义逼近目标,进行多模态信息下的线性融合,从而使模型更好地搜寻到公共特征子空间,提高多模态融合模型诊断的效能。提高多模态融合模型诊断的效能。提高多模态融合模型诊断的效能。

【技术实现步骤摘要】
考虑模态间语义距离度量的多模态融合分类优化方法


[0001]本申请涉及多模态信息融合领域,具体地涉及一种考虑模态间语义距离度量的多模态融合分类优化方法。

技术介绍

[0002]模态是指事件发生或客观物体存在的形态。为了更好地利用人工智能来帮助我们感知和理解世界,就需要解释和推理出多模态数据中有用的信息和特征。多模态融合技术旨在实现多领域数据的异质互补,建立一个可以处理和关联多种模态之间交互信息的框架,从早期基于视听语音识别的研究到近期新兴的语义和视觉领域应用,多模态信息融合逐渐发展成一个有巨大挖掘潜力和研究价值的新兴科研方向。然而,基于深度学习的多模态融合技术虽然能够学习不同模态数据的深层特征表达,但是由于模态间的差异大小和影响因子的不同,目前现有技术中还存在许多亟待解决和突破的难题:一方面,诸如特征的直接拼接、点积、相加等常见的特征融合方法,虽实现简单,但是多模态数据间存在“语义鸿沟”的问题,导致融合效果并不稳定,改善作用也比较有限;另一方面,由于不同模态特征含义不同,在普通特征空间中存在模态信息互相干扰的情况,因此建立具有统一语义表示的特征子空间较为困难,现有技术缺乏对有效融合信息选择以及模态间语义一致性判断的显式度量。

技术实现思路

[0003]为了克服现有技术的不足,本专利技术基于改进的CBAM注意力机制进行自适应特征细化,将通道注意力模型与空间注意力模型进行横向合并,聚合空间及通道维度上的有效信息,进行局部语义特征加强;在此基础上,构建基于模态间语义距离的语义逼进模型,引入对模态间语义一致性判断的显式度量,减小同类语义特征对之间的分布距离,同时扩大不同类语义特征对之间的分布距离;结合考虑模型分类性能目标与模型语义逼近目标,进行多模态信息下的线性融合,从而使模型更好地搜寻到公共特征子空间,提高多模态融合模型诊断的效能。
[0004]为实现上述目的,本专利技术所采用的解决方案为:
[0005]一种考虑模态间语义距离度量的多模态融合分类优化方法,其包括以下步骤:
[0006]步骤1:将数据划分为训练集和测试集,对所述训练集进行预处理,获得预处理后的数据,利用深度神经网络对所述预处理后的数据提取数据特征,所述数据特征包括图像特征F1和文本特征F2;
[0007]步骤2:将CBAM注意力机制中的通道注意力模型与空间注意力模型进行横向合并,获得改进的CBAM注意力机制,将所述步骤1中获得的数据特征输入所述改进的CBAM注意力机制,获得局部锁定特征空间,所述局部锁定特征空间包括局部锁定图像特征F
′1和局部锁定文本特征F
′2;
[0008]步骤3:构建基于模态间语义距离的语义逼进模型,具体包括以下步骤:
[0009]步骤31:根据所述步骤1中获得的训练集构建三元组,所述三元组包括正向对照样本组、锚样本组、负向对照样本组;
[0010]步骤32:将所述步骤31中建立的三元组输入所述步骤2中获得的局部锁定特征空间,获得锁定图文对特征;
[0011]步骤33:根据所述步骤32中获得的锁定图文对特征,增大不同类语义下所述锁定图文对特征的语义空间距离,缩小同类语义下所述锁定图文对特征的语义空间距离,建立基于模态间语义距离的语义逼进模型;
[0012]步骤34:对所述步骤33建立的基于模态间语义距离的语义逼进模型进行约束,获得目标函数;
[0013]步骤4:根据所述步骤1中获得的数据特征、步骤2中获得的局部锁定特征空间和步骤3中获得的基于模态间语义距离的语义逼进模型在特征公共子空间中设计多模态信息下的总体模型融合算法,获得融合损失函数,所述融合损失函数包括非对称融合损失函数Loss
n
和对称融合损失函数Loss
y
,利用所述融合损失函数进行模型的训练迭代。
[0014]可优选的是,所述步骤3中建立的基于模态间语义距离的语义逼进模型具体为:
[0015][0016][0017][0018][0019][0020]式中,为欧式距离度量;为锚样本组输入局部锁定特征空间获得的锁定图文对特征;为正向对照样本组输入局部锁定特征空间获得的锁定图文对特征;为负向对照样本组输入局部锁定特征空间获得的锁定图文对特征;α为特定阈值;N为批大小;τ为样本特征空间;L
p
为图片三元损失;L
t
为文本三元损失。
[0021]可优选的是,所述步骤2中建立改进的CBAM注意力机制,获得局部锁定图像特征F
′1的具体步骤如下:
[0022]步骤21:构建所述通道注意力模型,输入所述步骤1中获得的图像特征F1,在特征空间上分别采用一个最大池化处理和一个平均池化来聚合特征映射的空间信息,获得以一维向量表示的基于图像特征F1的图像通道描述符V
max1
和V
avg1

[0023]V
max1
=MaxPool(F1)
[0024]V
avg1
=AvgPool(F1)
[0025]式中:V
max1
为采用最大池化处理获得的图像通道描述符;V
avg1
为采用平均池化处理获得的图像通道描述符;
[0026]采用两层的卷积层作为共享权重特征层,聚合所述图像特征F1的通道邻域内一定区域的特征,所述基于图像特征F1的图像通道描述符V
max1
和V
avg1
通过所述共享权重特征层,获得基于图像特征F1的特征向量VMLP
max1
和VMLP
avg1
;将所述基于图像特征F1的特征向量VMLP
max1
和VMLP
avg1
进行逐像素相加,再通过一个relu激活函数获得针对图像特征F1的基于通道维度的图像注意力向量CA(F1):
[0027][0028]式中:为共享权重特征层函数;
[0029]步骤22:构建所述空间注意力模型,沿所述步骤1中获得的图像特征F1的通道轴分别进行全局均值池化和最大值池化操作,获得基于图像特征F1的图像空间上下文描述符T
avg1
和T
max1

[0030]T
max1
=MaxPool(F1)
[0031]T
avg1
=AvgPool(F1)
[0032]式中:T
max1
为采用最大值池化操作获得的图像空间上下文描述符;T
avg1
为采用全局均值池化操作获得的图像空间上下文描述符;
[0033]沿所述图像特征F1的通道轴对所述基于图像特征F1的图像空间上下文描述符T
max1
和T
avg1
进行拼接,获得一个基于图像特征F1的有效的空间特征描述符;使用空洞卷积来对空间中需要强调或抑制区域信息进行编码映射获得卷积后的特征,将所述卷积后的特征经过一个re本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种考虑模态间语义距离度量的多模态融合分类优化方法,其特征在于,其包括以下步骤:步骤1:将数据划分为训练集和测试集,对所述训练集进行预处理,获得预处理后的数据,利用深度神经网络对所述预处理后的数据提取数据特征,所述数据特征包括图像特征F1和文本特征F2;步骤2:将CBAM注意力机制中的通道注意力模型与空间注意力模型进行横向合并,获得改进的CBAM注意力机制,将所述步骤1中获得的数据特征输入所述改进的CBAM注意力机制,获得局部锁定特征空间,所述局部锁定特征空间包括局部锁定图像特征F
′1和局部锁定文本特征F
′2;步骤3:构建基于模态间语义距离的语义逼进模型,具体包括以下步骤:步骤31:根据所述步骤1中获得的训练集构建三元组,所述三元组包括正向对照样本组、锚样本组和负向对照样本组;步骤32:将所述步骤31中建立的三元组输入所述步骤2中获得的局部锁定特征空间,获得锁定图文对特征;步骤33:根据所述步骤32中获得的锁定图文对特征,增大不同类语义下所述锁定图文对特征的语义空间距离,缩小同类语义下所述锁定图文对特征的语义空间距离,建立基于模态间语义距离的语义逼进模型;步骤34:对所述步骤33建立的基于模态间语义距离的语义逼进模型进行约束,获得目标函数;步骤4:根据所述步骤1中获得的数据特征、步骤2中获得的局部锁定特征空间和步骤3中获得的基于模态间语义距离的语义逼进模型在特征公共子空间中设计多模态信息下的总体模型融合算法,获得融合损失函数,所述融合损失函数包括非对称融合损失函数Loss
n
和对称融合损失函数Loss
y
,利用所述融合损失函数进行模型的训练迭代。2.根据权利要求1所述的考虑模态间语义距离度量的多模态融合分类优化方法,其特征在于,所述步骤33中建立的基于模态间语义距离的语义逼进模型具体为:征在于,所述步骤33中建立的基于模态间语义距离的语义逼进模型具体为:征在于,所述步骤33中建立的基于模态间语义距离的语义逼进模型具体为:征在于,所述步骤33中建立的基于模态间语义距离的语义逼进模型具体为:征在于,所述步骤33中建立的基于模态间语义距离的语义逼进模型具体为:式中,为欧式距离度量;为锚样本组输入局部锁定特征空间获得的锁定图文对特征;为正向对照样本组输入局部锁定特征空间获得的
锁定图文对特征;为负向对照样本组输入局部锁定特征空间获得的锁定图文对特征;α为特定阈值;N为批大小;τ为样本特征空间;L
p
为图片三元损失;L
t
为文本三元损失。3.根据权利要求1所述的考虑模态间语义距离度量的多模态融合分类优化方法,其特征在于,所述步骤2中建立改进的CBAM注意力机制,获得局部锁定图像特征F
′1的具体步骤如下:步骤21:构建所述通道注意力模型,输入所述步骤1中获得的图像特征F1,在特征空间上分别采用一个最大池化处理和一个平均池化来聚合特征映射的空间信息,获得以一维向量表示的基于图像特征F1的图像通道描述符V
max1
和V
avg1
:V
max1
=MaxPool(F1)V
avg1
=AvgPool(F1)式中:V
max1
为采用最大池化处理获得的图像通道描述符;V
avg1
为采用平均池化处理获得的图像通道描述符;采用两层的卷积层作为共享权重特征层,聚合所述图像特征F1的通道邻域内一定区域的特征,所述基于图像特征F1的图像通道描述符V
max1
和V
avg1
通过所述共享权重特征层,获得基于图像特征F1的特征向量VMLP
max1
和VMLP
avg1
;将所述基于图像特征F1的特征向量VMLP
max1
和VMLP
avg1
进行逐像素相加,再通过一个relu激活函数获得针对图像特征F1的基于通道维度的图像注意力向量CA(F1):式中:为共享权重特征层函数;步骤22:构建所述空间注意力模型,沿所述步骤1中获得的图像特征F1的通道轴分别进行全局均值池化和最大值池化操作,获得基于图像特征F1的图像空间上下文描述符T
avg1
和T
max1
:T
max1
=MaxPool(F1)T
avg1
=AvgPool(F1)式中:T
max1
为采用最大值池化操作获得的图像空间上下文描述符;T
avg1
为采用全局均值池化操作获得的图像空间上下文描述符;沿所述图像特征F1的通道轴对所述基于图像特征F1的图像空间上下文描述符T
max1
和T
avg1
进行拼接,获得一个基于图像特征F1的有效的空间特征描述符;使用空洞卷积来对空间中需要强调或抑制区域信息进行编码映射获得卷积后的特征,将所述卷积后的特征经过一个relu激活函数获得针对图像特征F1的基于空间维度的图像注意力向量SA(F1):式中:为拼接操作;为空洞卷积层函数;步骤23:将所述步骤21、步骤22中的通道注意力模型、空间注意力模型进行横向合并,获得基于图像特征F1的混合注意力向量HYB(F1):将所述基于图像特征F1的混合注意力向量HYB(F1)注入所述图像特征F1,实现空间及通
道上的局部语义特征加强,获得局部锁定图像特征F
′1:4.根据权利要求1所述的考虑模态间语义距离度量的多模态融合分类优化方法,其特征在于,所述步骤2中建立改进的CBAM注意力机制,获得局部锁定文本特征F
′2的具体步骤如下:步骤21

:构建所述通道注意力模型,输入所述步骤1中获得的文本特征F2,在特征空间上分别采用一个最大池化处理和一个平均池化来聚合特征映射的空间信息,获得以一维向量表示的基于文本特征F2的文本通道描述符V
max2
和V
avg2
::V
max2
=MaxPool(F2)V
avg2
=AvgPool(F2)式中:V
max2
为采用最大池化处理获得的文本通道描述符;V
avg2
为采用平均池化处理获得的文本通道描述符;采用两层的卷积层作为共享权重特征层,聚合所述文本特征F2的通道邻域内一定区域的特征,所述基于文本特征F2的文本通道描述符V
max2
和V
avg2
通过所述共享权重特征层,获得基于文本特征F2的特征向量VMLP
max2
和VMLP
avg2
;将所述基于文本特征F2的特征向量VMLP
max2
和VMLP
...

【专利技术属性】
技术研发人员:王剑锋马世乾余金沄王坤赵晨阳吴文炤刘剑秦亮刘开培
申请(专利权)人:武汉大学国网信息通信产业集团有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1