【技术实现步骤摘要】
一种多模态对话情感识别方法及系统
[0001]本专利技术涉及情感识别
,尤其涉及一种多模态对话情感识别方法及系统
。
技术介绍
[0002]情感类的识别任务具有很强的应用价值,其横跨多个应用领域,包括医疗保健,教育和服务
。
对话情感识别任务
(Emotion Recognition in Conversation
,
ERC)
因其普适性,更是引起了从人工智能和认知科学到社会科学等多个学科的共同兴趣
。
对话的情感识别任务的主要目标是检测每个对话中的话语所伴随着的情感色彩
。
然而,人类感知情感的方式多种多样,不仅包括对话本身的内容,还包括声音的音调变化以及面部表情的变化等非语言元素
。
因此,要精确地捕捉情感,还需要综合考虑多种感知方式,包括语言和非语言的指标
。
[0003]随着计算机视觉的发展,许多研究已经开始着手利用多模态信息
(
或者多种感知方式
)
,为模型提供多样化的视角的方式来增强模型识别对话情感的能力
。
然而,通过对现有研究的分析可以发现,仅仅增加感知方式的数量并不总是与对话情感识别模型性能的提升成正比
。
举例来说,当向仅依赖纯文本信息的对话情感识别模型引入音频
、
视觉或音频和视觉的双模态信息时,并不一定会随着感知方式的数目增加而获得模型性能的持续提升
。
因此,在多模态情 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种多模态对话情感识别方法,其特征在于,包括:获取对话数据集及对话的真实情感标签,所述对话数据集包括多个对话以及每个对话包含的模态特征;训练多模态对话情感识别模型,将对话数据集输入至多模态对话情感识别模型中,得到每个对话的预测情感标签,根据每个对话的预测情感标签和真实情感标签计算模型的交叉熵损失,当模型的交叉熵损失最小时,得到训练好的多模态对话情感识别模型;将待识别的对话数据输入至训练好的多模态对话情感识别模型中,得到情感识别结果
。2.
如权利要求1所述的多模态对话情感识别方法,其特征在于,所述训练多模态对话情感识别模型包括:获取对话数据集及对话的真实情感标签,所述对话数据集包括多个对话以及每个对话包含的多模态特征;提取所述每个对话包含的多模态特征,得到全模态特征;将所述全模态特征中的一类模态特征擦除,得到擦除模态特征;根据所述全模态特征以及所述擦除模态特征,获取被擦除模态特征;计算所述多模态对话情感识别模型中每个神经元对所述被擦除模态特征的响应程度;根据所述响应程度划分神经元的主导模态和非主导模态;将对话数据集输入至多模态对话情感识别模型中,得到每个对话的预测情感标签,根据每个对话的预测情感标签和真实情感标签计算模型的交叉熵损失以及擦除模态特征的交叉熵损失;根据模型的交叉熵损失以及擦除模态特征的交叉熵损失计算各模态的优化速度;根据所述各模态的优化速度,计算各模态调制系数;根据所述各模态调制系数,为主导模态和非主导模态重新分配梯度
。3.
如权利要求2所述的多模态对话情感识别方法,其特征在于,所述计算所述多模态对话情感识别模型中每个神经元对所述被擦除模态特征的响应程度具体为:其中,
a
i
为多模态对话情感识别模型中第
i
个神经元;
u
m,k
表示所述对话数据集中对话中第
m
个模态信息中第
k
个值,
M
表示当前对话包含的模态数量,
D
表示对话的特征维度;将擦除第
m
个模态信息的对话记为个模态信息的对话记为表示中第
m
个模态信息中第
k
个值
。4.
如权利要求2所述的多模态对话情感识别方法,其特征在于,所述根据所述响应程度划分神经元的主导模态和非主导模态,具体为,定义指示函数表达式:以及
k≠m
其中,
|*|
为绝对值运算,为指标函数
II(*)
的值,是指神经元基于第
m
个模态的响应度,是神经元基于第
k
个模态的响应度,且
k≠m
;参数
∈
为阈值;当神经元对第
m
个模态的响应程度大于其他所有模态时,指示函数值为1,第
m
个模态为
神经元的主导模态;否则为0,第
m
个模态为神经元的非主导模态
。5.
如权利要求2所述的多模态对话情感识别方法,其特征在于,所述将对话数据集输入至多模态对话情感识别模型中,得到每个对话的预测情感标签,根据每个对话的预测情感标签和真实情感标签计算模型的交叉熵损失以及擦除模态特征的交叉熵损失;根据模型的交叉熵损失以及擦除模态特征的交叉熵损失计算各模态的优化速度,具体为:其中,表示多模态模型的参数集,表示第
t
技术研发人员:刘萌,宋雪萌,韩强,许海振,刘慧,王蕴潇,
申请(专利权)人:山东建筑大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。