一种基于全局感知跨模态特征融合网络的语音情感识别方法技术

技术编号:36753695 阅读:41 留言:0更新日期:2023-03-04 10:42
本发明专利技术涉及语言情感识别技术领域,且公开了一种基于全局感知跨模态特征融合网络的语音情感识别方法,包括多模态情感识别模型,所述多模态情感识别模型包括SER和ASR,本发明专利技术提出了一种用于语音情感识别的全局感知跨模态特征融合网络(GCF

【技术实现步骤摘要】
一种基于全局感知跨模态特征融合网络的语音情感识别方法


[0001]本专利技术涉及语言情感识别
,具体为一种基于全局感知跨模态特征融合网络的语音情感识别方法。

技术介绍

[0002]语音作为语言的第一属性,在语言中起着决定性的支撑作用,它不仅包含说话人所表达的文本内容,还包含说话者打算传达的情感信息,相同的文本以不同的情感表达存在巨大差异,因此,由于情感在人们正常对话中的重要性,语音情感识别受到了越来越多的关注,以无处不在的虚拟语音助手(如Alexa、Siri、GoogleAssistant和Cortana)为例,随着交互的人越来越多,它们必须推断用户的情绪并做出适当的反应以提升用户体验,然而,人类不仅通过言语表达情感,还通过许多其他方式表达情感,例如文字、身体姿势和面部表情等,因此,为了正确理解话语中表达的情感,我们需要全面了解各种模态所蕴含的情感信息。
[0003]现实生活中,语音情感识别有助于人们更好的交流,情感通常以多种形式出现在对话中,如语音和文本,然而,现有的情绪识别系统多数仅使用单一模态的特征进行情绪识别,而忽略了多模本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于全局感知跨模态特征融合网络的语音情感识别方法,其特征在于:包括以下主要步骤;S1:通过迁移学习的预训练模型分别提取wav2vec2.0特征和文本特征;S2:通过残差跨模态融合注意模块融合来自不同模态的特征;S3:引入全局感知模块捕获多模态融合特征来自于不同尺度上的重要情感信息;S4:在IEMOCAP数据集上进行的大量实验表明。2.根据权利要求1所述的一种基于全局感知跨模态特征融合网络的语音情感识别系统,包括多模态情感识别模型,其特征在于:所述多模态情感识别模型包括SER和ASR,SER包括wav2vec2.0、Roberta

base、残差跨模态融合注意模块、全局感知块和完全连接层,ASR包括转录、音频特征和完全连接层,SER用于通过预测情感标签和真实情感标签来计算CrossEntropy损失,ASR部分通过wav2vec2.0模型的音频特征和对应的文本转录计算CTC损失,最后将CrossEntropy损失和CTC损失相加,得到训练部分的损失值。3.根据权利要求2所述的一种基于全局感知跨模态特征融合网络的语音情感识别系统,其特征在于:所述多模态情感识别模型包括问题陈述;数据集D有k个话语u
i
,每个话语对应的标签为l
i
,每个话语由语音片段a
i
和文本转录t
i
组成,其中u
i
∈(a
i
,t
i
),t
i
是ASR转录文本或人工注释文本,所提出的网络模型将u
i
作为输入,并将正确的情感标签分配给任何给定的话语。<U,L>={{u
i
=<a
i
,t
i
>,l
i
}|i∈[1,k]}
ꢀꢀꢀꢀ
(1)4.根据权利要求2所述的一种基于全局感知跨模态特征融合网络的语音情感识别系统,其特征在于:所述多模态情感识别模型包括特征编码;在特征编码中,每个话语的音频信息和文本信息都经过对应的编码器编码成(wav2vec2.0特征)、(文本特征)以输入我们提出的模型。5.根据权利要求2所述的一种基于全局感知跨模态特征融合网络的语音情感识别系统,其特征在于:所述多模态情感识别模型包括语音编码;wav2vec2.0特征包含丰富的情感识别所需的韵律信息,在我们的模型中,我们使用预训练的wav2vec2.0模型作为原始音频波形编码器提取wav2vec2.0特征,该模型基于表示语音音频序列的变换器结构,通过拟合一组比音素短的ASR建模单元进行提取特征,另外,对比两个版本wav2vec2.0模型,我们选择使用维度大小为768的wav2vec2

base模型,我们将第个话语的音频数据输入到预训练的wav2vec2.0模型中,以获得上下文嵌入表示,表示音频特征嵌入的大小,因此,可以表示为:其中F
wav2vec2.0
表示预训练wav2vec2.0模型作为音频特征处理器的函数,j取决wav2vec2.0模型中原始音频的大小和CNN特征提取层,其中,CNN层以20ms的步幅和25ms的跳跃幅度从原始音频中提取帧,在我们的实验中,CNN特征提取层的参数将固定在一个恒定的水平。6.根据权利要求2所述的一种基于全局感知跨模态特征融合网络的语音情感识别系统,其特征在于:所述多模态情感识别模型包括上下文文本表征;将文本数据输入到roberta

base模型进行编码,在文本特征提取之前,我们应该对输
入文本进行标记,并添加分隔符和分隔句子,将句子进行分隔后,我们对标记化的文本数据和相应的话语进行微调,上下文嵌入可以表示为:其中F
Roberta

base
表示文本特征提取函数,m取决于文本中的标记数,D
T
是文本特征嵌入的维度大小。7.根据权利要求2所述的...

【专利技术属性】
技术研发人员:李峰王玲玲杨菲罗久淞
申请(专利权)人:安徽财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1