一种多模态对话情感识别方法技术

技术编号：38902177 阅读：11 留言：0更新日期：2023-09-22 14:20

本发明专利技术提出一种多模态对话情感识别方法，属于对话情感识别技术领域。包括：S1.使用不同的编码器对每轮对话的单模态数据进行编码，得到对话中每个模态的特征表示；S2.对一轮对话的上下文对话信息进行聚合；S3.将对话中的每句话交互的多模态特征进行线性变换后进行模态间的特征融合；S4.基于辅助任务对每个模态的特征使用独立的分类器进行分类，使用主任务分类器对融合后的特征进行主任务情感分类，分别计算分类损失，最终模型损失由辅助任务和主任务损失进行加权计算；S5.将多模态数据输入至主任务分类器中，输出情感类别。解决没有结合所有对话上下文对情感信息进行充分的挖掘，各模态数据表达情感的关联性没有被充分利用的问题。的问题。的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种多模态对话情感识别方法

[0001]本申请涉及对话情感识别方法，尤其涉及一种多模态对话情感识别方法，属于对话情感识别

技术介绍

[0002]随着人机交互和智能客服领域的快速发展，情感识别作为一项重要的技术被广泛关注和应用。如今，各种大型社交媒体时刻都在产生大量的对话数据，形式包括但不限于文本、音频和视频。对发表言论者的情感倾向进行研究在舆情分析、电子客服和医疗保健等领域都有重大的应用价值。因此，对多模态对话情感识别的研究越来越收到研究者和企业的重视。多模态对话情感识别与传统的孤立话语的单模态研究不同，它不但可以结合对话上下文挖掘话语潜在情感，而且同时考虑对话中的多种模态信息，如语音、文本、图像等，从而更准确地捕捉用户情感和需求。
[0003]在之前的研究中，研究者们提出了许多捕获对话上下文的模型。CMN采用了一种多模态方法，包括声学、视觉和文本特征，带有门控循环单位，建模每个说话者过去的话语。DialogueRNN使用不同的GRU单元来获取语境信息和说话人关系。它是第一个区分说话人的会话情感分析模型。DialogueGCN将会话构造为一个图，将语音情感分类问题转换为图的节点分类问题，并使用图卷积神经网络对结果进行分类。DialogueCRN引入认知阶段，从感知阶段检索的上下文中提取和整合情绪线索，用于上下文建模。这些模型有的只关注了对话的文本模态，忽略了其它模态的作用，有的没有对说话人信息进行建模从而丢失了部分对话上下文信息。MMGCN利用GCN网络获取语境信息，既能有效利用多模态依赖关系，又能...

【技术保护点】

【技术特征摘要】
1.一种多模态对话情感识别方法，其特征在于，包括以下步骤：S1.使用不同的编码器对每轮对话的单模态数据进行编码，得到对话中每个模态的特征表示，包括以下步骤：S11.使用TextCNN提取句子文本的原始特征；S12.使用双向长短时记忆网络对句子文本序列初步建模，编码句子文本序列的长期依赖关系，学习句子序列中的上下文信息；其中，表示文本模态上下文无关的原始特征表示，表示表示上一句话语来自文本模态的高级特征表示，表示当前句话语来自文本模态的高级特征表示，表示下一句话语来自文本模态的高级特征表示；S13.OpenSmile工具包提取原始的声学特征；S14.使用在FER+语料库上预训练过的DenseNet模型来提取面部表情的原始特征；S15.采用全连接网络对语音和视觉模态原始特征进行建模；S15.采用全连接网络对语音和视觉模态原始特征进行建模；其中，表示来自语音模态的高级特征表示，表示训练的权重参数，表示声学模态上下文无关的原始特征表示，表示偏置参数，表示表示视觉模态的高级特征表示，表示训练的权重参数，表示偏置参数，表示视觉模态上下文无关的原始特征表示；S16.对说话人的特征进行编码并嵌入到原始特征中，原始的说话人特征表示成独热向量s
i
，说话人特征的嵌入S
i
的计算方式如式所示：其中，W
k
为可训练的权重参数，s
k
表示说话人特征的独热向量，b
k
为偏置参数；得到嵌入了说话人信息的原始特征，如下式所示：得到嵌入了说话人信息的原始特征，如下式所示：得到嵌入了说话人信息的原始特征，如下式所示：其中h
i
'
t
表示嵌入了说话人信息的原始特征，为不包含说话人特征嵌入的原始特征，S
k
表示当前句话语的说话人嵌入特征；S2.使用深度图卷积网络对一轮对话的上下文对话信息进行聚合；S3.将对话中的每句话交互后的文本模态、语音模态和视觉模态特征进行线性变换后进行模态间的特征融合；S4.基于辅助任务对每个模态的特征使用独立的分类器进行分类，使用主任务分类器对融合后的特征进行主任务情感分类，分别计算分类损失，最终模型损失由辅助任务和主任务损失进行加权计算；S5.将文本模态、语音模态和视觉模态的数据输入至主任务分类器中，输出情感类别。2.根据权利要求1所述的一种多模态对话情感识别方法，其特征在于，使用深度图卷积
网络对一轮对话的上下文对话信息进行聚合的方法是包括以下步骤：S21.设有N个话语的对话，每句话的文本模态、语音模态和视觉模态的数据分别表示为S22.对每句话的文本模态、语音模态和视觉模态使用图神经网络构图得到三个无向图G
t
＝(V
t
,E
t
)，G
a
＝(V
a
,E
a
),G
v
＝(V
v
,E
v
)；其中，G
t
，G
a
，G
v
分别表示文本模态无向图、语音模态无向图和视觉模态无向图，V表示话语节点的集合，E表示每句话特征节点间的邻接关系的集合；S23.对所有话语的文本模态、语音模态和视觉模态使用图神经网络构图，对同一模态的所有样本数据，使每个样本节点都与其他样本节点相连接；S24.基于皮尔逊相关系数计算样本节点之间的相似性A
xy
：其中，x
i
和y
i

【专利技术属性】
技术研发人员：王玉静，唐勇强，谢金宝，蒋雅冰，王玉龙，
申请(专利权)人：哈尔滨理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人