一种基于图神经网络的多模态对话情感识别方法及系统技术方案

技术编号：38257933 阅读：15 留言：0更新日期：2023-07-27 10:20

本发明专利技术公开了一种基于图神经网络的多模态对话情感识别方法及系统，包括：S1：获取说话人和上下文感知的单模态表示；S2：根据说话人和上下文感知的单模态表示，提取各模态和会话上下文之间的多元和高阶信息，得到多变量表征数据；S3：提取各模态和会话上下文之间不同频率成分的不同重要性，得到多频率表征数据；S4：对多变量表征数据和多频率表征数据进行数据融合，得到输入对话的情感表征；S5：根据情感表征，得到输入对话的预测标签，并将预测标签作为多模态对话情感识别结果输出。本发明专利技术能够提高对话情感识别的准确性和效率。高对话情感识别的准确性和效率。高对话情感识别的准确性和效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图神经网络的多模态对话情感识别方法及系统

[0001]本专利技术涉及情感计算
，具体涉及一种基于图神经网络的多模态对话情感识别方法及系统。

技术介绍

[0002]对话情感识别任务(Emotion Recognition in Conversation,ERC)旨在使机器能够利用多感官数据(包括文本、视觉和听觉信息等)检测对话中交互的人类情感。与在单一模态(例如文本、语音或面部图像)下或在非对话场景中进行的传统情感计算任务不同，ERC任务中存在一项独特且关键的挑战，即跨模态和上下文维度的多变量复杂关系。
[0003]研究人员一直在探索如何更有效地捕捉这其中复杂的关系。在现有的ERC模型中，一个主要的方式是使用上下文感知模块(如循环单元或Transformer)来捕获上下文关系，同时通过各种融合方法对多模态关系进行建模。尽管取得了一些进展，但这种方式往往低估了模态和上下文之间的多变量关系，因为它以松散耦合的方式编码多模态和上下文关系，限制了其中的自然相互作用，导致关系的学习不够充分。
[0004]最近，图神经网络(Graph Neural Network,GNN)在捕获数据关系方面显示出一定优势，为对话情感识别提供了新的解决方案。一种通常的解决方法是构建一个异构图，其中将话语的每个模态视为一个节点，并与同一话语的其他模态连接以及与同一对话中相同模态的话语连接。通常会遵循精心调整的边缘加权策略。在此基础上，可以通过消息传递同时对话语之间的多模态和上下文依赖关系进行建模，从而提供更紧密的纠缠和更...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的多模态对话情感识别方法，其特征在于，所述基于图神经网络的多模态对话情感识别方法包括：S1：获取说话人和上下文感知的单模态表示，其中，所述单模态表示包括文本、视觉和听觉；S2：根据所述说话人和上下文感知的单模态表示，提取各模态和会话上下文之间的多元和高阶信息，得到多变量表征数据；S3：提取各模态和会话上下文之间不同频率成分的不同重要性，得到多频率表征数据；S4：对所述多变量表征数据和所述多频率表征数据进行数据融合，得到输入对话的情感表征；S5：根据所述情感表征，得到输入对话的预测标签，并将所述预测标签作为多模态对话情感识别结果输出。2.根据权利要求1所述的基于图神经网络的多模态对话情感识别方法，其特征在于，所述S1包括：S11：利用双向门控循环单元对输入对话的文本特征进行编码，得到文本编码数据；S12：分别利用第一全连接网络和第二全连接网络对输入对话的听觉特征和视觉特征进行编码，得到视觉编码数据和听觉编码数据；S13：计算说话人的嵌入表征；S14：分别根据所述文本编码数据、所述视觉编码数据和听觉编码数据，以及所述嵌入表征，得到文本单模态表示、视觉单模态表示和听觉单模态表示。3.根据权利要求2所述的基于图神经网络的多模态对话情感识别方法，其特征在于，所述S11包括：所述S12包括：所述S12包括：其中，表示文本编码数据，表示听觉编码数据，表示视觉编码数据，表示双向门控循环单元函数，表示输入对话的文本特征，表示或即输入双向门控循环单元的文本下文或上文，W1表示第一全连接网络，表示输入对话的听觉特征，表示听觉偏置，W2表示第二全连接网络，表示输入对话的视觉特征，表示视觉偏置；所述S13包括：S
i
＝W
s
s
i
其中，S
i
为第i轮对话的说话人的嵌入特征，W
s
为可训练的权重，s
i
为独热向量表示每个说话人；所述S14包括：
其中，表示第i轮对话说话人和上下文感知的单模态表征，当x＝t时，表示文本编码数据；当x＝a时，表示听觉编码数据；当x＝v时，表示视觉编码数据，S
i
表示说话人嵌入表征。4.根据权利要求1所述的基于图神经网络的多模态对话情感识别方法，其特征在于，所述S2包括：S21：根据所述说话人和上下文感知的单模态表示，确定多个第一节点；S22：构建各第一节点的多模态超边和上下文超边；S23：分别为各超边和各第一节点分配权重；S24：根据各所述第一节点、各超边、各超边分配权重以及各第一节点分配权重，生成超图；S25：对所述超图进行第一节点卷积，通过聚合节点特征更新超边嵌入，并且，进行超边卷积以将超边消息传播至第一节点；S26：重复S25直至最后一次迭代，并将最后一次迭代的输出作为多变量表征数据。5.根据权利要求4所述的基于图神经网络的多模态对话情感识别方法，其特征在于，所述S25包括：其中，V
(l)
表示第l层的输入且表示第l层的输入且表示超图神经网络中第l层的某节点，v
H
表示超图中的节点集合，D
h
表示网络隐藏层节点的特征维度，σ()是一个非线性激活函数，W
e
为超边权重矩阵且diag()表示对角矩阵，w()表示权重，e1表示第1条超边，表示|ε
H
|超边，ε
H
表示超图中超边的集合，和分别是节点度矩阵和超边...

【专利技术属性】
技术研发人员：陈飞宇，邵杰，朱树元，申恒涛，
申请(专利权)人：四川省人工智能研究院宜宾，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人