一种多模态对话情感识别方法技术

技术编号:38902177 阅读:11 留言:0更新日期:2023-09-22 14:20
本发明专利技术提出一种多模态对话情感识别方法,属于对话情感识别技术领域。包括:S1.使用不同的编码器对每轮对话的单模态数据进行编码,得到对话中每个模态的特征表示;S2.对一轮对话的上下文对话信息进行聚合;S3.将对话中的每句话交互的多模态特征进行线性变换后进行模态间的特征融合;S4.基于辅助任务对每个模态的特征使用独立的分类器进行分类,使用主任务分类器对融合后的特征进行主任务情感分类,分别计算分类损失,最终模型损失由辅助任务和主任务损失进行加权计算;S5.将多模态数据输入至主任务分类器中,输出情感类别。解决没有结合所有对话上下文对情感信息进行充分的挖掘,各模态数据表达情感的关联性没有被充分利用的问题。的问题。的问题。

【技术实现步骤摘要】
一种多模态对话情感识别方法


[0001]本申请涉及对话情感识别方法,尤其涉及一种多模态对话情感识别方法,属于对话情感识别


技术介绍

[0002]随着人机交互和智能客服领域的快速发展,情感识别作为一项重要的技术被广泛关注和应用。如今,各种大型社交媒体时刻都在产生大量的对话数据,形式包括但不限于文本、音频和视频。对发表言论者的情感倾向进行研究在舆情分析、电子客服和医疗保健等领域都有重大的应用价值。因此,对多模态对话情感识别的研究越来越收到研究者和企业的重视。多模态对话情感识别与传统的孤立话语的单模态研究不同,它不但可以结合对话上下文挖掘话语潜在情感,而且同时考虑对话中的多种模态信息,如语音、文本、图像等,从而更准确地捕捉用户情感和需求。
[0003]在之前的研究中,研究者们提出了许多捕获对话上下文的模型。CMN采用了一种多模态方法,包括声学、视觉和文本特征,带有门控循环单位,建模每个说话者过去的话语。DialogueRNN使用不同的GRU单元来获取语境信息和说话人关系。它是第一个区分说话人的会话情感分析模型。DialogueGCN将会话构造为一个图,将语音情感分类问题转换为图的节点分类问题,并使用图卷积神经网络对结果进行分类。DialogueCRN引入认知阶段,从感知阶段检索的上下文中提取和整合情绪线索,用于上下文建模。这些模型有的只关注了对话的文本模态,忽略了其它模态的作用,有的没有对说话人信息进行建模从而丢失了部分对话上下文信息。MMGCN利用GCN网络获取语境信息,既能有效利用多模态依赖关系,又能利用说话人信息。但是,MMGCN将不同模态的数据放在一个图中训练,没有考虑到各个模态数据的差异性对模型整体性能的影响。

技术实现思路

[0004]在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0005]鉴于此,为解决现有技术中存在大多情感识别方法只考虑有限窗口内的上下文信息,而没有结合所有对话上下文对情感信息进行充分的挖掘,各模态数据表达情感的统一性和关联性没有被充分利用的技术问题,本专利技术提供一种多模态对话情感识别方法,为了充分聚合对话上下文信息,并且使每个模态对最终的情感识别效果的贡献最大化,本专利技术基于图神经网络和多任务学习,提出了一种新的多模态对话情感识别方法,首先对单一模态对话上下文进行建模,同时加入说话人特征嵌入,将聚合后的特征分别送入单模态辅助任务分类部分和多模态特征融合部分,融合后的特征送入最终的多模态情感分类器主任务进行分类,利用多任务学习设计损失函数联合优化主任务和辅助任务。
[0006]方案一、一种多模态对话情感识别方法,包括以下步骤:
[0007]S1.使用不同的编码器对每轮对话的单模态数据进行编码,得到对话中每个模态的特征表示,包括以下步骤:
[0008]S11.使用TextCNN提取句子文本的原始特征;
[0009]S12.使用双向长短时记忆网络对句子文本序列初步建模,编码句子文本序列的长期依赖关系,学习句子序列中的上下文信息;
[0010][0011]其中,表示文本模态上下文无关的原始特征表示,表示表示上一句话语来自文本模态的高级特征表示,表示当前句话语来自文本模态的高级特征表示,表示下一句话语来自文本模态的高级特征表示;
[0012]S13.OpenSmile工具包提取原始的声学特征;
[0013]S14.使用在FER+语料库上预训练过的DenseNet模型来提取面部表情的原始特征;
[0014]S15.采用全连接网络对语音和视觉模态原始特征进行建模;
[0015][0016][0017]其中,表示来自语音模态的高级特征表示,表示训练的权重参数,表示声学模态上下文无关的原始特征表示,表示偏置参数,表示表示视觉模态的高级特征表示,表示训练的权重参数,表示偏置参数,表示视觉模态上下文无关的原始特征表示;
[0018]S16.对说话人的特征进行编码并嵌入到原始特征中,原始的说话人特征表示成独热向量s
i
,说话人特征的嵌入S
i
的计算方式如式所示:
[0019][0020]其中,W
k
为可训练的权重参数,s
k
表示说话人特征的独热向量,b
k
为偏置参数;
[0021]得到嵌入了说话人信息的原始特征,如下式所示:
[0022][0023][0024][0025]其中表示嵌入了说话人信息的原始特征,为不包含说话人特征嵌入的原始特征,S
k
表示当前句话语的说话人嵌入特征;
[0026]S2.使用深度图卷积网络对一轮对话的上下文对话信息进行聚合;
[0027]S3.将对话中的每句话交互后的文本模态、语音模态和视觉模态特征进行线性变换后进行模态间的特征融合;
[0028]S4.基于辅助任务对每个模态的特征使用独立的分类器进行分类,使用主任务分类器对融合后的特征进行主任务情感分类,分别计算分类损失,最终模型损失由辅助任务和主任务损失进行加权计算;
[0029]S5.将文本模态、语音模态和视觉模态的数据输入至主任务分类器中,输出情感类
别。
[0030]优选的,使用深度图卷积网络对一轮对话的上下文对话信息进行聚合的方法是包括以下步骤:
[0031]S21.设有N个话语的对话,每句话的文本模态、语音模态和视觉模态的数据分别表示为
[0032]S22.对每句话的文本模态、语音模态和视觉模态使用图神经网络构图得到三个无向图G
t
=(V
t
,E
t
),G
a
=(V
a
,E
a
),G
v
=(V
v
,E
v
);其中,G
t
,G
a
,G
v
分别表示文本模态无向图、语音模态无向图和视觉模态无向图,V表示话语节点的集合,E表示每句话特征节点间的邻接关系的集合;
[0033]S23.对所有话语的文本模态、语音模态和视觉模态使用图神经网络构图,对同一模态的所有样本数据,使每个样本节点都与其他样本节点相连接;
[0034]S24.基于皮尔逊相关系数计算样本节点之间的相似性A
xy

[0035][0036]其中,x
i
和y
i
分别表示两个样本在第i个特征的取值,和分别表示两个样本的所有特征的均值;
[0037]S25.在GCN网络中加入初始残差连接和恒等映射聚合上下文特征,设是无向图G的图卷积矩阵:
[0038][0039]其中,A表示本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态对话情感识别方法,其特征在于,包括以下步骤:S1.使用不同的编码器对每轮对话的单模态数据进行编码,得到对话中每个模态的特征表示,包括以下步骤:S11.使用TextCNN提取句子文本的原始特征;S12.使用双向长短时记忆网络对句子文本序列初步建模,编码句子文本序列的长期依赖关系,学习句子序列中的上下文信息;其中,表示文本模态上下文无关的原始特征表示,表示表示上一句话语来自文本模态的高级特征表示,表示当前句话语来自文本模态的高级特征表示,表示下一句话语来自文本模态的高级特征表示;S13.OpenSmile工具包提取原始的声学特征;S14.使用在FER+语料库上预训练过的DenseNet模型来提取面部表情的原始特征;S15.采用全连接网络对语音和视觉模态原始特征进行建模;S15.采用全连接网络对语音和视觉模态原始特征进行建模;其中,表示来自语音模态的高级特征表示,表示训练的权重参数,表示声学模态上下文无关的原始特征表示,表示偏置参数,表示表示视觉模态的高级特征表示,表示训练的权重参数,表示偏置参数,表示视觉模态上下文无关的原始特征表示;S16.对说话人的特征进行编码并嵌入到原始特征中,原始的说话人特征表示成独热向量s
i
,说话人特征的嵌入S
i
的计算方式如式所示:其中,W
k
为可训练的权重参数,s
k
表示说话人特征的独热向量,b
k
为偏置参数;得到嵌入了说话人信息的原始特征,如下式所示:得到嵌入了说话人信息的原始特征,如下式所示:得到嵌入了说话人信息的原始特征,如下式所示:其中h
i
'
t
表示嵌入了说话人信息的原始特征,为不包含说话人特征嵌入的原始特征,S
k
表示当前句话语的说话人嵌入特征;S2.使用深度图卷积网络对一轮对话的上下文对话信息进行聚合;S3.将对话中的每句话交互后的文本模态、语音模态和视觉模态特征进行线性变换后进行模态间的特征融合;S4.基于辅助任务对每个模态的特征使用独立的分类器进行分类,使用主任务分类器对融合后的特征进行主任务情感分类,分别计算分类损失,最终模型损失由辅助任务和主任务损失进行加权计算;S5.将文本模态、语音模态和视觉模态的数据输入至主任务分类器中,输出情感类别。2.根据权利要求1所述的一种多模态对话情感识别方法,其特征在于,使用深度图卷积
网络对一轮对话的上下文对话信息进行聚合的方法是包括以下步骤:S21.设有N个话语的对话,每句话的文本模态、语音模态和视觉模态的数据分别表示为S22.对每句话的文本模态、语音模态和视觉模态使用图神经网络构图得到三个无向图G
t
=(V
t
,E
t
),G
a
=(V
a
,E
a
),G
v
=(V
v
,E
v
);其中,G
t
,G
a
,G
v
分别表示文本模态无向图、语音模态无向图和视觉模态无向图,V表示话语节点的集合,E表示每句话特征节点间的邻接关系的集合;S23.对所有话语的文本模态、语音模态和视觉模态使用图神经网络构图,对同一模态的所有样本数据,使每个样本节点都与其他样本节点相连接;S24.基于皮尔逊相关系数计算样本节点之间的相似性A
xy
:其中,x
i
和y
i

【专利技术属性】
技术研发人员:王玉静唐勇强谢金宝蒋雅冰王玉龙
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1