一种基于图神经网络的多模态对话情感识别方法及系统技术方案

技术编号:38257933 阅读:15 留言:0更新日期:2023-07-27 10:20
本发明专利技术公开了一种基于图神经网络的多模态对话情感识别方法及系统,包括:S1:获取说话人和上下文感知的单模态表示;S2:根据说话人和上下文感知的单模态表示,提取各模态和会话上下文之间的多元和高阶信息,得到多变量表征数据;S3:提取各模态和会话上下文之间不同频率成分的不同重要性,得到多频率表征数据;S4:对多变量表征数据和多频率表征数据进行数据融合,得到输入对话的情感表征;S5:根据情感表征,得到输入对话的预测标签,并将预测标签作为多模态对话情感识别结果输出。本发明专利技术能够提高对话情感识别的准确性和效率。高对话情感识别的准确性和效率。高对话情感识别的准确性和效率。

【技术实现步骤摘要】
一种基于图神经网络的多模态对话情感识别方法及系统


[0001]本专利技术涉及情感计算
,具体涉及一种基于图神经网络的多模态对话情感识别方法及系统。

技术介绍

[0002]对话情感识别任务(Emotion Recognition in Conversation,ERC)旨在使机器能够利用多感官数据(包括文本、视觉和听觉信息等)检测对话中交互的人类情感。与在单一模态(例如文本、语音或面部图像)下或在非对话场景中进行的传统情感计算任务不同,ERC任务中存在一项独特且关键的挑战,即跨模态和上下文维度的多变量复杂关系。
[0003]研究人员一直在探索如何更有效地捕捉这其中复杂的关系。在现有的ERC模型中,一个主要的方式是使用上下文感知模块(如循环单元或Transformer)来捕获上下文关系,同时通过各种融合方法对多模态关系进行建模。尽管取得了一些进展,但这种方式往往低估了模态和上下文之间的多变量关系,因为它以松散耦合的方式编码多模态和上下文关系,限制了其中的自然相互作用,导致关系的学习不够充分。
[0004]最近,图神经网络(Graph Neural Network,GNN)在捕获数据关系方面显示出一定优势,为对话情感识别提供了新的解决方案。一种通常的解决方法是构建一个异构图,其中将话语的每个模态视为一个节点,并与同一话语的其他模态连接以及与同一对话中相同模态的话语连接。通常会遵循精心调整的边缘加权策略。在此基础上,可以通过消息传递同时对话语之间的多模态和上下文依赖关系进行建模,从而提供更紧密的纠缠和更丰富的交互。尽管这些基于GNN的方法非常强大,但它们仍然存在两个局限性:
[0005]i)多变量关系建模不充分。传统的GNN假定感兴趣对象拥有成对关系,并且只能通过多个成对组合提供高阶和多变量关系的近似。然而,将这些多变量关系退化为成对组合可能会损害表达能力。因此,现有的基于GNN的方法可能无法充分建模ERC中复杂的多变量关系。
[0006]ii)低估高频率信息。研究已经表明,GNN的传播规则(即聚合和平滑来自邻居节点的消息)类似于固定的低通滤波器,并且图中流动的主要是低频消息,而高频信息的效果大幅减弱。此外,有研究表明低频消息能保留节点特征的共性,且在同配图上表现更好(同配图即是图中相链接的节点往往具有相似的特征并共享相同的标签)。相比之下,反映差异和不一致的高频信息在异配图中更为重要。对于ERC,构建的图通常具有高度异配性,其中模态或短距离上下文之间可能存在不一致的情感信息。因此,高频信息可能会提供关键的指导,但是以前基于GNN的ERC模型严重忽略了这一点,从而导致性能提升的瓶颈。

技术实现思路

[0007]本专利技术的目的在于提供一种基于图神经网络的多模态对话情感识别方法及系统,通过研究模态和上下文之间的多元关系,充分利用反映情感差异和情感共性的不同频率信息,以能够提高对话情感识别的准确性和效率。
[0008]本专利技术解决上述技术问题的技术方案如下:
[0009]本专利技术提供一种基于图神经网络的多模态对话情感识别方法,所述基于图神经网络的多模态对话情感识别方法包括:
[0010]S1:获取说话人和上下文感知的单模态表示,其中,所述单模态表示包括文本、视觉和听觉;
[0011]S2:根据所述说话人和上下文感知的单模态表示,提取各模态和会话上下文之间的多元和高阶信息,得到多变量表征数据;
[0012]S3:提取各模态和会话上下文之间不同频率成分的不同重要性,得到多频率表征数据;
[0013]S4:对所述多变量表征数据和所述多频率表征数据进行数据融合,得到输入对话的情感表征;
[0014]S5:根据所述情感表征,得到输入对话的预测标签,并将所述预测标签作为多模态对话情感识别结果输出。
[0015]可选择地,所述S1包括:
[0016]S11:利用双向门控循环单元对输入对话的文本特征进行编码,得到文本编码数据;
[0017]S12:分别利用第一全连接网络和第二全连接网络对输入对话的听觉特征和视觉特征进行编码,得到视觉编码数据和听觉编码数据;
[0018]S13:计算说话人的嵌入表征;
[0019]S14:分别根据所述文本编码数据、所述视觉编码数据和听觉编码数据,以及所述嵌入表征,得到文本单模态表示、视觉单模态表示和听觉单模态表示。
[0020]可选择地,所述S11包括:
[0021][0022]所述S12包括:
[0023][0024][0025]其中,表示文本编码数据,表示听觉编码数据,表示视觉编码数据,表示双向门控循环单元函数,表示输入对话的文本特征,表示或即输入双向门控循环单元的文本下文或上文,W1表示第一全连接网络,表示输入对话的听觉特征,表示听觉偏置,W2表示第二全连接网络,表示输入对话的视觉特征,表示视觉偏置;
[0026]所述S13包括:
[0027]S
i
=W
s
s
i
[0028]其中,S
i
为第i轮对话的说话人的嵌入特征,W
s
为可训练的权重,s
i
为独热向量表示每个说话人;
[0029]所述S14包括:
[0030][0031]其中,表示第i轮对话说话人和上下文感知的单模态表征,当x=t时,表示文本编码数据;当x=a时,表示听觉编码数据;当x=v时,表示视觉编码数据,S
i
表示说话人嵌入表征。
[0032]可选择地,所述S2包括:
[0033]S21:根据所述说话人和上下文感知的单模态表示,确定多个第一节点;
[0034]S22:构建各第一节点的多模态超边和上下文超边;
[0035]S23:分别为各超边和各第一节点分配权重;
[0036]S24:根据各所述第一节点、各超边、各超边分配权重以及各第一节点分配权重,生成超图;
[0037]S25:对所述超图进行第一节点卷积,通过聚合节点特征更新超边嵌入,并且,进行超边卷积以将超边消息传播至第一节点;
[0038]S26:重复S25直至最后一次迭代,并将最后一次迭代的输出作为多变量表征数据。
[0039]可选择地,所述S25包括:
[0040][0041]其中,V
(l)
表示第l层的输入且表示第l层的输入且表示超图神经网络中第l层的某节点,v
H
表示超图中的节点集合,D
h
表示网络隐藏层节点的特征维度,σ()是一个非线性激活函数,W
e
为超边权重矩阵且diag()表示对角矩阵,w()表示权重,e1表示第1条超边,表示|ε
H
|超边,ε
H
表示超图中超边的集合,和分别是节点度矩阵和超边度矩阵,H表示超图节点与边连接的关联矩阵且关联矩阵且表示加权关联矩阵且T表示转置操作。
[0042]可选择地,所述S3本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的多模态对话情感识别方法,其特征在于,所述基于图神经网络的多模态对话情感识别方法包括:S1:获取说话人和上下文感知的单模态表示,其中,所述单模态表示包括文本、视觉和听觉;S2:根据所述说话人和上下文感知的单模态表示,提取各模态和会话上下文之间的多元和高阶信息,得到多变量表征数据;S3:提取各模态和会话上下文之间不同频率成分的不同重要性,得到多频率表征数据;S4:对所述多变量表征数据和所述多频率表征数据进行数据融合,得到输入对话的情感表征;S5:根据所述情感表征,得到输入对话的预测标签,并将所述预测标签作为多模态对话情感识别结果输出。2.根据权利要求1所述的基于图神经网络的多模态对话情感识别方法,其特征在于,所述S1包括:S11:利用双向门控循环单元对输入对话的文本特征进行编码,得到文本编码数据;S12:分别利用第一全连接网络和第二全连接网络对输入对话的听觉特征和视觉特征进行编码,得到视觉编码数据和听觉编码数据;S13:计算说话人的嵌入表征;S14:分别根据所述文本编码数据、所述视觉编码数据和听觉编码数据,以及所述嵌入表征,得到文本单模态表示、视觉单模态表示和听觉单模态表示。3.根据权利要求2所述的基于图神经网络的多模态对话情感识别方法,其特征在于,所述S11包括:所述S12包括:所述S12包括:其中,表示文本编码数据,表示听觉编码数据,表示视觉编码数据,表示双向门控循环单元函数,表示输入对话的文本特征,表示或即输入双向门控循环单元的文本下文或上文,W1表示第一全连接网络,表示输入对话的听觉特征,表示听觉偏置,W2表示第二全连接网络,表示输入对话的视觉特征,表示视觉偏置;所述S13包括:S
i
=W
s
s
i
其中,S
i
为第i轮对话的说话人的嵌入特征,W
s
为可训练的权重,s
i
为独热向量表示每个说话人;所述S14包括:
其中,表示第i轮对话说话人和上下文感知的单模态表征,当x=t时,表示文本编码数据;当x=a时,表示听觉编码数据;当x=v时,表示视觉编码数据,S
i
表示说话人嵌入表征。4.根据权利要求1所述的基于图神经网络的多模态对话情感识别方法,其特征在于,所述S2包括:S21:根据所述说话人和上下文感知的单模态表示,确定多个第一节点;S22:构建各第一节点的多模态超边和上下文超边;S23:分别为各超边和各第一节点分配权重;S24:根据各所述第一节点、各超边、各超边分配权重以及各第一节点分配权重,生成超图;S25:对所述超图进行第一节点卷积,通过聚合节点特征更新超边嵌入,并且,进行超边卷积以将超边消息传播至第一节点;S26:重复S25直至最后一次迭代,并将最后一次迭代的输出作为多变量表征数据。5.根据权利要求4所述的基于图神经网络的多模态对话情感识别方法,其特征在于,所述S25包括:其中,V
(l)
表示第l层的输入且表示第l层的输入且表示超图神经网络中第l层的某节点,v
H
表示超图中的节点集合,D
h
表示网络隐藏层节点的特征维度,σ()是一个非线性激活函数,W
e
为超边权重矩阵且diag()表示对角矩阵,w()表示权重,e1表示第1条超边,表示|ε
H
|超边,ε
H
表示超图中超边的集合,和分别是节点度矩阵和超边...

【专利技术属性】
技术研发人员:陈飞宇邵杰朱树元申恒涛
申请(专利权)人:四川省人工智能研究院宜宾
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1