一种多模态对话情感识别方法及系统技术方案

技术编号:39846095 阅读:8 留言:0更新日期:2023-12-29 16:43
本公开提出了一种多模态对话情感识别方法及系统,包括获取对话数据集及对话的真实情感标签,所述对话数据集包括多个对话以及每个对话包含的模态特征;训练多模态对话情感识别模型,将对话数据集输入至多模态对话情感识别模型中,得到每个对话的预测情感标签,根据每个对话的预测情感标签和真实情感标签计算模型的交叉熵损失,当模型的交叉熵损失最小时,得到训练好的多模态对话情感识别模型;将待识别的对话数据输入至训练好的多模态对话情感识别模型中,得到情感识别结果

【技术实现步骤摘要】
一种多模态对话情感识别方法及系统


[0001]本专利技术涉及情感识别
,尤其涉及一种多模态对话情感识别方法及系统


技术介绍

[0002]情感类的识别任务具有很强的应用价值,其横跨多个应用领域,包括医疗保健,教育和服务

对话情感识别任务
(Emotion Recognition in Conversation

ERC)
因其普适性,更是引起了从人工智能和认知科学到社会科学等多个学科的共同兴趣

对话的情感识别任务的主要目标是检测每个对话中的话语所伴随着的情感色彩

然而,人类感知情感的方式多种多样,不仅包括对话本身的内容,还包括声音的音调变化以及面部表情的变化等非语言元素

因此,要精确地捕捉情感,还需要综合考虑多种感知方式,包括语言和非语言的指标

[0003]随着计算机视觉的发展,许多研究已经开始着手利用多模态信息
(
或者多种感知方式
)
,为模型提供多样化的视角的方式来增强模型识别对话情感的能力

然而,通过对现有研究的分析可以发现,仅仅增加感知方式的数量并不总是与对话情感识别模型性能的提升成正比

举例来说,当向仅依赖纯文本信息的对话情感识别模型引入音频

视觉或音频和视觉的双模态信息时,并不一定会随着感知方式的数目增加而获得模型性能的持续提升

因此,在多模态情感识别领域存在一种边际效应问题,即增加额外的信息来源
(
例如文本

音频

视觉等
)
可能会在某一点上达到性能的极限,之后便不再有明显的改善,甚至可能会导致模型的性能下降

所以,挖掘多模态情感识别领域存在边际效应递减现象的原因以及解决多模态情感识别中的性能瓶颈是目前研究的重点之一

[0004]在不同研究领域中,多模态边际效应递减现象的原因可以总结如下:
1)
因模态数量增加而引发的模型过拟合加剧问题;
2)
由于跨模态特征规范的不同而导致的模态失衡问题;以及
3)
模型对不同模态的不平衡优化

然而,在对话情感识别任务的独特背景下,不存在与模态数量增加相关的模型过拟合加剧问题,也不会出现因跨模态特征规范不同而导致的模态失衡问题

通过对对话情感识别模型在不同模态上的学习过程进行解耦,可以发现不同模态的优化速度存在差异,而优化速度较慢的模态受到更大的抑制

为了更深入地分析导致模型对不同模态不平衡优化的原因,观察了在多模态联合训练过程中分配给每个模态的平均梯度

专利技术人发现,在联合训练过程中,受抑制的模态分配了较小的平均梯度,并且一些模态因为受到抑制而无法在联合训练中收敛而导致了多模态模型性能的下降


技术实现思路

[0005]为了有效地解决因不同模态之间梯度分配不平衡所引起的多模态边际效应递减问题,本专利技术提出了一种多模态对话情感识别方法及系统,在模型训练阶段,将注意力集中在情感识别模型的神经元上,利用模态参数解耦技术识别神经元的主导模态和非主导模态,再基于损失函数计算各模态的调制系数,为主导模态和非主导模态重新分配梯度,使被抑制的模态与主导模态比例平衡,从而缓解各个模态之间的梯度不平衡问题

[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]第一方面,本专利技术提供一种多模态对话情感识别方法,包括:
[0008]获取对话数据集及对话的真实情感标签,所述对话数据集包括多个对话以及每个对话包含的模态特征;
[0009]训练多模态对话情感识别模型,将对话数据集输入至多模态对话情感识别模型中,得到每个对话的预测情感标签,根据每个对话的预测情感标签和真实情感标签计算模型的交叉熵损失,当模型的交叉熵损失最小时,得到训练好的多模态对话情感识别模型;
[0010]将待识别的对话数据输入至训练好的多模态对话情感识别模型中,得到情感识别结果

[0011]优选地,所述训练多模态对话情感识别模型包括:
[0012]获取对话数据集及对话的真实情感标签,所述对话数据集包括多个对话以及每个对话包含的多模态特征;提取所述每个对话包含的多模态特征,得到全模态特征;
[0013]将所述全模态特征中的一类模态特征擦除,得到擦除模态特征;根据所述全模态特征以及所述擦除模态特征,获取被擦除模态特征;
[0014]计算所述多模态对话情感识别模型中每个神经元对所述被擦除模态特征的响应程度;
[0015]根据所述响应程度划分神经元的主导模态和非主导模态;
[0016]将对话数据集输入至多模态对话情感识别模型中,得到每个对话的预测情感标签,根据每个对话的预测情感标签和真实情感标签计算模型的交叉熵损失以及擦除模态特征的交叉熵损失;根据模型的交叉熵损失以及擦除模态特征的交叉熵损失计算各模态的优化速度;
[0017]根据所述各模态的优化速度,计算各模态调制系数;
[0018]根据所述各模态调制系数,为主导模态和非主导模态重新分配梯度

[0019]优选地,所述计算所述多模态对话情感识别模型中每个神经元对所述被擦除模态特征的响应程度具体为:
[0020][0021]其中,
a
i
为多模态对话情感识别模型中第
i
个神经元;
u
m

k
表示所述对话数据集中对话中第
m
个模态信息中第
k
个值,
M
表示当前对话包含的模态数量,
D
表示对话的特征维度;将擦除第
m
个模态信息的对话记为个模态信息的对话记为个模态信息的对话记为表示中第
m
个模态信息中第
k
个值

[0022]优选地,所述根据所述响应程度划分神经元的主导模态和非主导模态,具体为,定义指示函数表达式:
[0023]以及
k≠m
[0024]其中,
|*|
为绝对值运算,为指标函数
II(*)
的值,是指神经元基于第
m
个模态的响应度,是神经元基于第
k
个模态的响应度,且
k≠m
;参数

为阈值;
[0025]当神经元对第
m
个模态的响应程度大于其他所有模态时,指示函数值为1,第
m
个模态为神经元的主导模态;否则为0,第
m
个模态为神经元的非主导模态

[0026]优选地,所述将对话数据集输入至多模态本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种多模态对话情感识别方法,其特征在于,包括:获取对话数据集及对话的真实情感标签,所述对话数据集包括多个对话以及每个对话包含的模态特征;训练多模态对话情感识别模型,将对话数据集输入至多模态对话情感识别模型中,得到每个对话的预测情感标签,根据每个对话的预测情感标签和真实情感标签计算模型的交叉熵损失,当模型的交叉熵损失最小时,得到训练好的多模态对话情感识别模型;将待识别的对话数据输入至训练好的多模态对话情感识别模型中,得到情感识别结果
。2.
如权利要求1所述的多模态对话情感识别方法,其特征在于,所述训练多模态对话情感识别模型包括:获取对话数据集及对话的真实情感标签,所述对话数据集包括多个对话以及每个对话包含的多模态特征;提取所述每个对话包含的多模态特征,得到全模态特征;将所述全模态特征中的一类模态特征擦除,得到擦除模态特征;根据所述全模态特征以及所述擦除模态特征,获取被擦除模态特征;计算所述多模态对话情感识别模型中每个神经元对所述被擦除模态特征的响应程度;根据所述响应程度划分神经元的主导模态和非主导模态;将对话数据集输入至多模态对话情感识别模型中,得到每个对话的预测情感标签,根据每个对话的预测情感标签和真实情感标签计算模型的交叉熵损失以及擦除模态特征的交叉熵损失;根据模型的交叉熵损失以及擦除模态特征的交叉熵损失计算各模态的优化速度;根据所述各模态的优化速度,计算各模态调制系数;根据所述各模态调制系数,为主导模态和非主导模态重新分配梯度
。3.
如权利要求2所述的多模态对话情感识别方法,其特征在于,所述计算所述多模态对话情感识别模型中每个神经元对所述被擦除模态特征的响应程度具体为:其中,
a
i
为多模态对话情感识别模型中第
i
个神经元;
u
m,k
表示所述对话数据集中对话中第
m
个模态信息中第
k
个值,
M
表示当前对话包含的模态数量,
D
表示对话的特征维度;将擦除第
m
个模态信息的对话记为个模态信息的对话记为表示中第
m
个模态信息中第
k
个值
。4.
如权利要求2所述的多模态对话情感识别方法,其特征在于,所述根据所述响应程度划分神经元的主导模态和非主导模态,具体为,定义指示函数表达式:以及
k≠m
其中,
|*|
为绝对值运算,为指标函数
II(*)
的值,是指神经元基于第
m
个模态的响应度,是神经元基于第
k
个模态的响应度,且
k≠m
;参数

为阈值;当神经元对第
m
个模态的响应程度大于其他所有模态时,指示函数值为1,第
m
个模态为
神经元的主导模态;否则为0,第
m
个模态为神经元的非主导模态
。5.
如权利要求2所述的多模态对话情感识别方法,其特征在于,所述将对话数据集输入至多模态对话情感识别模型中,得到每个对话的预测情感标签,根据每个对话的预测情感标签和真实情感标签计算模型的交叉熵损失以及擦除模态特征的交叉熵损失;根据模型的交叉熵损失以及擦除模态特征的交叉熵损失计算各模态的优化速度,具体为:其中,表示多模态模型的参数集,表示第
t

【专利技术属性】
技术研发人员:刘萌宋雪萌韩强许海振刘慧王蕴潇
申请(专利权)人:山东建筑大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1