一种基于一致性约束图卷积网络的多模态情绪识别方法技术

技术编号:35876846 阅读:26 留言:0更新日期:2022-12-07 11:14
本发明专利技术涉及一种基于一致性约束图卷积网络的多模态情绪识别方法,属于情绪识别技术领域。目前大多数多模态研究主要集中在通过特征拼接来简单地建模多模态信息,或者使用图卷积网络来学习不同话语(样本)和带有情感标签的分类特征;本发明专利技术以话语为节点,根据两个节点之间的不同模态关系构建图卷积网络,同时,将同一说话者在对话中的一致性损失和同一话语中不同模态特征的一致性损失作为正则项添加到模型损失中,通过这样做,本发明专利技术对应模型调整了话语特征来更好地预测情绪类别。在两个公共基准数据集IEMOCAP和MELD上评估了本方法,结果表明,在多模态会话环境下,本方法优于其他方法。他方法。他方法。

【技术实现步骤摘要】
一种基于一致性约束图卷积网络的多模态情绪识别方法


[0001]本专利技术涉及一种基于一致性约束图卷积网络的多模态情绪识别方法,属于情绪识别


技术介绍

[0002]随着社交媒体的快速发展,对话中的多模态情感识别(MERC)越来越受到研究界的关注。由于多模态信息的引入,会话中的情绪识别(ERC)可以从多个角度分析情绪表达。在多模态信息的利用方面,研究者非常关注不同模态特征的提取和融合策略。对于ERC任务,现有的工作主要考虑对话中不同话语和模态表征的关系。与传统的独白和其他情感识别不同,对话中个体的话语关系和语境对ERC很有帮助。Li等人在APersona

Based Neural Conversation Model中提出从说话者的声学信息中提取个性化信息。MMGCN提出了一种说话人编码器来区分不同的说话人。然而,这些模型在上下文信息提取方面的处理成本较高,或者具有说话人特征学习的局限性。

技术实现思路

[0003]本专利技术提供了一种基于一致性约束图卷积网络的多模态情绪识别方法,本专利技术通过以话语为节点,根据两个节点之间的不同模态关系构建图卷积网络,同时,将同一说话者在对话中的一致性损失和同一话语中不同模态特征的一致性损失作为规则项添加到模型损失中,以用于调整话语特征来更好地预测情绪。
[0004]本专利技术的技术方案是:一种基于一致性约束图卷积网络的多模态情绪识别方法,所述方法包括如下步骤:
[0005]Step1、对数据集进行预处理;
[0006]Step2、对不同的模态信息进行编码;
[0007]Step3、构建图卷积网络的基本架构,其中包括邻接矩阵的节点与边;
[0008]Step4、对图的特征进行学习;
[0009]Step5、提取说话人级别的一致性约束;
[0010]Step6、提取不同模态间的一致性约束;
[0011]Step7、将经过图卷积网络的特征送入情绪分类器,得到节点的情绪分类。
[0012]作为本专利技术的进一步方案,所述Step3包括构建图卷积网络邻接矩阵的图节点,构建图卷积网络邻接矩阵的边;对于节点采用句子级来表示,在对话的数据集中,把每个对话中的每个话语作为每个节点,在多模态的表示下,每一句话分别有三种模态的表示,所以有N个话语时,有3N个节点。
[0013]作为本专利技术的进一步方案,所述Step3中的构造邻接矩阵的节点与边,对于节点之间的边,对于相同模态与不同模态有不同的构建方法,分为两种情况;
[0014]第一种情况,如果两个节点来自不同的对话,则它们的不同模态特征不会被传递;在这种情况下,将这两个节点的边权值设置为0;采用角相似度来衡量任意两个节点的边的
权重;
[0015][0016]其中,分别表示第i和第j个utterance某种相同模态的初始特征,a、t、v表示语音模态、文本模态、图像模态,sim是余弦相似度函数;
[0017]在第二种情况下,如果两个节点来自同一个对话,那么它们之间的不同模态特征也是相关的,需要进行特征传递,两个节点的边的权重也通过角相似度来衡量:
[0018][0019]其中,分别表示第i和第j个utterance的两种不同模态的初始特征,
[0020]作为本专利技术的进一步方案,所述Step4中,根据节点之间边的权重计算方法构建邻接矩阵后,对于节点的某种模态特征,构建3种邻接矩阵来进行特征传递和学习;对于节点的某种模态特征,分别考虑此某种模态特征与其自身模态以及另外两个模态的关系来构建,其中,节点的模态包括语音模态、文本模态、图像模态。
[0021]作为本专利技术的进一步方案,所述Step5中,关于说话人级别的一致性约束,在经过l层的deepGCN模型编码后,每个节点都融合了其他节点的多种模态信息;假设数据集中有M个说话人,第m个说话人在同一个对话中有K句utterances,同一个说话人不会出现在两个dialogue中,即有K个图卷积特征向量,设定第m个说话人的第k句utterance的图卷积特征向量表示为将这K个节点特征向量进行拼接,得到该说话人的特征矩阵然后进行meanpooling操作,得到该说话人的平均特征向量
[0022][0023]其中
·
表示点积运算,||
·
||表示l2向量的范数,d
l
为一限定维数,然后,计算了数据集的总说话者一致性损失L
spk

[0024][0025]作为本专利技术的进一步方案,所述Step6中,关于模态间的一致性约束,以文本模态特征为基准,使语音模态特征和图像模态特征接近于文本模态特征;具体来说,计算了u
i
的语音特征、图像特征和文本特征之间的余弦相似度,并将其作为一种一致性损失:
[0026][0027]然后,对数据集中话语的一致性损失进行总结,得到总的模态一致性损失:
[0028][0029]为l+1层的语言模态的特征表示,为l+1层的文本模态的特征表示,
为l+1层的图像模态的特征表示,u
i
第i个utterance。
[0030]作为本专利技术的进一步方案,所述Step7中,将节点的卷积特征送到一个具有两个全连接层的MLP和一个Softmax函数中,以获得该节点属于不同情绪类别的概率:
[0031][0032]选择与最大概率值对应的情绪类别作为第i个utterance u
i
的情绪标签并使用交叉熵作为类别损失函数:
[0033][0034]其中p
i
[j]是j类utterance u
i
的模型预测概率,y
i
[j]是j类utterance u
i
的情感标签;
[0035]在模型训练中,模型结合了分类损失、说话人一致性损失、模态一致性损失和12正则化,具体公式为:
[0036]L=L
cls
+λ1L
spk
+λ2L
mod
+λ3||θ||2[0037]其中,L
spk
为数据集的总说话者一致性损失,L
mod
为总的模态一致性损失,λ1,λ1,λ1分别为三个正则项的权重,θ表示可训练参数的集合。
[0038]本专利技术的有益效果是:本专利技术首先,构造图卷积网络来在多模态节点之间传输信息,并学习每个样本的单模态特征;然后,计算会话中同一说话人的平均特征,并通过说话人一致性约束使说话人的每个样本特征接近该平均特征;同样通过模态间关系一致性约束,使语音特征和图像特征接近每个样本的文本特征;最后将三种模态的特征连接起来,得到每个样本的最终表示,并预测情感类别;在两个公共基准数据集IEMOCAP和MELD上评估了本方法。结果表明,在多模态会话环境下,本方法优于其他方法,通过消融实验验证了模型各组成部分的有效性。
附图说明
[003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于一致性约束图卷积网络的多模态情绪识别方法,其特征在于:所述方法包括如下步骤:Step1、对数据集进行预处理;Step2、对不同的模态信息进行编码;Step3、构建图卷积网络的基本架构,其中包括邻接矩阵的节点与边;Step4、对图的特征进行学习;Step5、提取说话人级别的一致性约束;Step6、提取不同模态间的一致性约束;Step7、将经过图卷积网络的特征送入情绪分类器,得到节点的情绪分类。2.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法,其特征在于:所述Step3包括构建图卷积网络邻接矩阵的图节点,构建图卷积网络邻接矩阵的边;对于节点采用句子级来表示,在对话的数据集中,把每个对话中的每个话语作为每个节点,在多模态的表示下,每一句话分别有三种模态的表示,所以有N个话语时,有3N个节点。3.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法,其特征在于:所述Step3中的构造邻接矩阵的节点与边,对于节点之间的边,对于相同模态与不同模态有不同的构建方法,分为两种情况;第一种情况,如果两个节点来自不同的对话,则它们的不同模态特征不会被传递;在这种情况下,将这两个节点的边权值设置为0;采用角相似度来衡量任意两个节点的边的权重;其中,分别表示第i和第j个utterance某种相同模态的初始特征,a、t、v表示语音模态、文本模态、图像模态,sim是余弦相似度函数;在第二种情况下,如果两个节点来自同一个对话,那么它们之间的不同模态特征也是相关的,需要进行特征传递,两个节点的边的权重也通过角相似度来衡量:其中,分别表示第i和第j个utterance的两种不同模态的初始特征,4.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法,其特征在于:所述Step4中,根据节点之间边的权重计算方法构建邻接矩阵后,对于节点的某种模态特征,构建3种邻接矩阵来进行特征传递和学习;对于节点的某种模态特征,分别考虑此某种模态特征与其自身模态以及另外两个模态的关系来构建,其中,节点的模态包括语音模态、文本模态、图像模态。5.根据权利要求1所述的基于一致性约束图卷积网络的多模态情绪识别方法,其特征在于:所述Step5中,关于说话人级别的一致性约束,在经过l层的deepGCN模型编码后,每个节点都融合了其他节点的多种模态信息;假设数据集中有M个说话人,第m个说话人在同一
个对话中有K句utterances,同一个说...

【专利技术属性】
技术研发人员:相艳谭晓聪郭军军王红斌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1