基于同构性和异质性动态信息交互的多模态情感分类方法技术

技术编号:37394481 阅读:14 留言:0更新日期:2023-04-27 07:31
基于同构性和异质性动态信息交互的多模态情感分类方法,涉及多模态情感分析技术领域,本申请提出基于同构性和异质性动态信息交互的多模态情感分类方法,特别是针对目前多模态表达空间内的同构性和异质性特征,本申请采用了一个具有分布排列的共享子空间捕捉模态间潜在的共性和特征,并且设计了一个多模态动态信息交互方法动态融合文本和音频模态内同构性和异质性信息,从而保留各模态的特性,并消除各模态间所存在的歧义和噪声,进而提升了情感分类的准确性。情感分类的准确性。情感分类的准确性。

【技术实现步骤摘要】
基于同构性和异质性动态信息交互的多模态情感分类方法


[0001]本专利技术涉及多模态情感分析
,具体为基于同构性和异质性动态信息交互的多模态情感分类方法。

技术介绍

[0002]目前,多模态情感分析的研究领域已经有了很多重要的研究和发现。大多数研究主要集中在不同模态特征分析和多模态语义融合,并且已经有了大量的研究和发现。2018年,Yao等人提出了多模态因子分解情感分析模型(MFM)。MFM通过优化多模态数据和标签联合生成鉴别目标。之后通过区分鉴别目标确保学习到的表征具有丰富的模态特征。2020年Kai等人提出了一种跨模态BERT多模态情感分析模型(CM

BERT)。CM

BERT首先结合来自文本和音频模态的信息来微调预先训练过的BERT模型。之后采用一种新颖的掩蔽多模态注意作为其核心方法,通过文本和音频模态间的动态交互调整词的权重,提升多模态情感识别的精确度。2020年Wasifur等人提出一种多模态适应门

BERT多模态情感分析方法(MAG

BERT)。MAG

BERT利用BERT作为主干网络,以非语言行为为条件的注意力,基本上将视觉和听觉的信息因素映射为一个具有轨迹和大小的矢量。在微调过程中,这个适应向量修改BERT和XLNet的内部状态,允许模型无缝地适应多模态输入。2021年Wenmeng等人提出了一种自监督多任务多模态模型(Self

MM)。Self

MM采用自监督多任务学习策略,通过设计多模态标签和模态表示的单峰标签,联合训练多模态和单模态任务,分别学习一致性和差异性来调整每个子任务的权重。虽然以上研究已经去了显著成效,但是大多数方法并没有明确分析多模态信息深层次多维度的语义关联和差异性,会导致各模态间存在歧义和噪声,进而影响情感分类的准确性。

技术实现思路

[0003]本专利技术的目的是:针对现有技术中并没有明确分析多模态信息深层次多维度的语义关联和差异性,会导致各模态间存在歧义和噪声,进而导致情感分类不准确的问题,提出基于同构性和异质性动态信息交互的多模态情感分类方法。
[0004]本专利技术为了解决上述技术问题采取的技术方案是:
[0005]基于同构性和异质性动态信息交互的多模态情感分类方法,包括以下步骤:
[0006]步骤一:获取CMU

MOSI多模态情感数据集,并对CMU

MOSI多模态情感数据集进行预处理,得到文本异质性特征和音频异质性特征,所述预处理具体步骤为:
[0007]步骤一一:将数据集内的文本序列数据经过BERT模型的编码层和解码层进行特征提取,得到文本异质性特征;
[0008]步骤一二:将数据集内的音频语义信号采用COVAREP库提取出每一帧内的音频异质性特征;
[0009]步骤二:采用P2FA将文本异质性特征和音频异质性特征在单词级别的每个时间步内进行模态对齐,对模态对齐后的文本异质性特征和音频异质性特征取平均,得到文本、音
频两种模态单词级别对齐的长度相同的特征;
[0010]步骤三:将文本、音频两种模态单词级别对齐的长度相同的特征映射到一维卷积网络层,输出维度相同的文本异质性特征和音频异质性特征;
[0011]步骤四:将维度相同的文本异质性特征和音频异性质特征映射到一个多模态共享权重的子空间,并通过分布式排列学习不同模态之间的同构性,得到文本模态同构隐藏特征和音频模态同构隐藏特征;
[0012]步骤五:将文本异质性特征与文本模态同构隐藏特征进行矩阵相乘,得到文本信息交互矩阵;
[0013]将音频异质性特征和音频模态同构隐藏特征进行矩阵相乘,得到音频信息交互矩阵;
[0014]然后分别引入padding mask矩阵M,得到文本信息交互表示矩阵以及音频交互信息表示矩阵;
[0015]步骤六:利用软注意力方法分别对文本信息交互表示矩阵以及音频交互信息表示矩阵进行处理,得到文本注意力矩阵以及音频注意力矩阵;
[0016]步骤七:将文本注意力矩阵以及音频注意力矩阵进行加权求和,得到加权融合信息交互矩阵;
[0017]步骤八:将加权融合信息交互矩阵与文本异质性特征进行加权计算,得到多模态信息交互矩阵;
[0018]步骤九:将多模态信息交互矩阵与文本异质性特征进行残差连接和归一化处理,得到多模态融合特征数据;
[0019]步骤十:将多模态融合特征数据经过全连接层和softmax得到情感分类结果;
[0020]步骤十一:利用文本异质性特征和音频异质性特征作为输入、情感分类结果作为输出训练多模态情感分类模型,并利用交叉熵损失函数优化模型,得到训练好的多模态情感分类模型;
[0021]步骤十二:将待识别的文本异质性特征和音频异质性特征输入训练好的多模态情感分类模型,得到情感分类结果;
[0022]所述多模态情感分类模型的损失函数为:
[0023][0024]其中,α表示相似度损失函数的正则化权重,表示相似度损失函数,表示交叉熵损失函数,所述相似度损失函数用于计算文本模态同构隐藏特征和音频模态同构隐藏特征之间的损失;
[0025]所述相似度损失函数如下:
[0026][0027]其中,表示相似度损失函数,α
t
表示文本模态同构隐藏特征,β
a
表示音频模态同构隐藏特征,t表示文本特征,a表示音频特征,{T,A}表示特征空间,CMD
K

t

a
)表示文本模态同构隐藏特征和音频模态同构隐藏特征中心距差函数;
[0028]所述交叉熵损失函数如下:
[0029][0030]其中,N是语料的数量,为期望输出,为实际输出,i表示语料的序号,i=1...N。
[0031]进一步的,所述文本异质性特征如下:
[0032][0033]其中,T1,T2,...,T表示文本表征序列。
[0034]进一步的,所述音频异质性特征如下:
[0035][0036]其中,A1,A2,

,A
n
表示音频信号序列,Time

Step表示每一帧。
[0037]进一步的,所述维度相同的文本异质性特征和音频异质性特征如下:
[0038][0039]其中,k{T
{a,t}
,A
{a,t}
}表示文本和音频模态的卷积核大小,表示缩放后文本异质性特征和音频异质性特征,Conv1D表示一维卷积网络。
[0040]进一步的,所述文本模态同构隐藏特征和音频模态同构隐藏特征如下:
[0041][0042][0043]其中,E
c
表示多模态共享子空间,α
t
表示文本模态同构隐藏特征,β
a
表示音频本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于同构性和异质性动态信息交互的多模态情感分类方法,其特征在于包括以下步骤:步骤一:获取CMU

MOSI多模态情感数据集,并对CMU

MOSI多模态情感数据集进行预处理,得到文本异质性特征和音频异质性特征,所述预处理具体步骤为:步骤一一:将数据集内的文本序列数据经过BERT模型的编码层和解码层进行特征提取,得到文本异质性特征;步骤一二:将数据集内的音频语义信号采用COVAREP库提取出每一帧内的音频异质性特征;步骤二:采用P2FA将文本异质性特征和音频异质性特征在单词级别的每个时间步内进行模态对齐,对模态对齐后的文本异质性特征和音频异质性特征取平均,得到文本、音频两种模态单词级别对齐的长度相同的特征;步骤三:将文本、音频两种模态单词级别对齐的长度相同的特征映射到一维卷积网络层,输出维度相同的文本异质性特征和音频异质性特征;步骤四:将维度相同的文本异质性特征和音频异性质特征映射到一个多模态共享权重的子空间,并通过分布式排列学习不同模态之间的同构性,得到文本模态同构隐藏特征和音频模态同构隐藏特征;步骤五:将文本异质性特征与文本模态同构隐藏特征进行矩阵相乘,得到文本信息交互矩阵;将音频异质性特征和音频模态同构隐藏特征进行矩阵相乘,得到音频信息交互矩阵;然后分别引入padding mask矩阵M,得到文本信息交互表示矩阵以及音频交互信息表示矩阵;步骤六:利用软注意力方法分别对文本信息交互表示矩阵以及音频交互信息表示矩阵进行处理,得到文本注意力矩阵以及音频注意力矩阵;步骤七:将文本注意力矩阵以及音频注意力矩阵进行加权求和,得到加权融合信息交互矩阵;步骤八:将加权融合信息交互矩阵与文本异质性特征进行加权计算,得到多模态信息交互矩阵;步骤九:将多模态信息交互矩阵与文本异质性特征进行残差连接和归一化处理,得到多模态融合特征数据;步骤十:将多模态融合特征数据经过全连接层和softmax得到情感分类结果;步骤十一:利用文本异质性特征和音频异质性特征作为输入、情感分类结果作为输出训练多模态情感分类模型,并利用交叉熵损失函数优化模型,得到训练好的多模态情感分类模型;步骤十二:将待识别的文本异质性特征和音频异质性特征输入训练好的多模态情感分类模型,得到情感分类结果;所述多模态情感分类模型的损失函数为:l=l
task
+αl
Similarity
其中,α表示相似度损失函数的正则化权重,l
Similarity
表示相似度损失函数,l
task
表示交叉熵损失函数,所述相似度损失函数用于计算文本模态同构隐藏特征和音频模态同构隐藏
特征之间的损失;所述相似度损失函数如下:其中,l
Similarity
表示相似度损失函数,α
t
表示文本模态同构隐藏特征,β
a
表示音频模态同构隐藏特征,t表示文本特征,a表示音频特征,{T,A}表示特征空间,CMD
K

t

a
)表示文本模态同构隐藏特征和音频模态同构隐藏特征中心距差函数;所述交叉熵损失函数如下:其中,N是语料的数量,为期望输出,为实际输出,i表示语料的序号,i=1...N。2.根据权利要求1所述的基于同构性和异质性动态信息交互的多模态情感分类方法,其特征在于所述文本异质性特征如下:其中,T1,T2,...,T表示文本表征序列。3.根据权利要求...

【专利技术属性】
技术研发人员:纪明宇周佳伟何鑫魏宁王亚东
申请(专利权)人:东北林业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1