一种基于语境信息增强和交叉注意力的语音情绪分类方法技术

技术编号:42809234 阅读:51 留言:0更新日期:2024-09-24 20:51
本发明专利技术提出一种基于语境信息增强和交叉注意力的语音情绪分类方法,包括获取包括语音信号的语音数据集,对语音数据集进行预处理,得到包括文本数据的文本数据集;将语音数据集输入音频模态编码器中进行上下文表示提取,得到语音特征;将文本数据集输入BERT预训练模型进行文本特征提取,得到文本特征;将语音特征和文本特征输入到跨模态融合模块,语音特征在音频模态特征学习时融入文本特征,得到语音多模态融合特征;文本特征在文本模态特征学习时融入语音特征,得到文本多模态融合特征;将语音多模态融合特征和文本多模态融合特征输入决策层中,进行平均池化、连接和分类,得到分类结果。本发明专利技术能够使语音情绪的分类结果更加准确。

【技术实现步骤摘要】

本专利技术涉及语音情感识别领域,具体涉及一种基于语境信息增强和交叉注意力的语音情绪分类方法。背景介绍语音情感识别(speech emotion recognition,ser)技术主要聚焦于从语音信号中识别和理解情感状态。该技术广泛应用于人机交互、智能客服等领域,增强机器对人类情绪的感知与响应能力。语音情感识别方法主要分为两个步骤:语音特征提取和模型识别。在语音特征提取阶段,常见的做法是从语音信号中提取诸如语谱图、mel频率倒谱系数mfcc、音高及其谐波、或抖动等声学特征,然后使用gmm、hmm、svm等传统分类器对其进行分类,但是这些声学特征难以准确捕捉到复杂的语音情感,因此效果有限。随着深度学习的发展,基于深度学习的语音情感识别方法日益成为主流。例如,yang等提出了利用波形和频谱图提取互补信息的方法,使用堆叠的blstm层进行唤醒和效价分类,改善了单一特征的语音情感识别效果。但这些描述特征难以全面捕捉情感信息,导致分类效果有限。近年来,通过构建综合多模态数据的深度学习模型,能够充分利用来自不同来源的有效信息,采用如卷积神经网络cnn或循环神经网络rnn等技术,用于同时编码和本文档来自技高网...

【技术保护点】

1.一种基于语境信息增强和交叉注意力的语音情绪分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于语境信息增强和交叉注意力的语音情绪分类方法,其特征在于,所述步骤S1中,对所述语音数据集进行预处理包括通过Wave2Vect2模型生成文本数据,如公式(1)所示:

3.根据权利要求1所述的一种基于语境信息增强和交叉注意力的语音情绪分类方法,其特征在于,所述步骤S2中,所述音频模态编码器包括特征编码器模块、Transformer上下文表示模块和量化模块;

4.根据权利要求3所述的一种基于语境信息增强和交叉注意力的语音情绪分类方法,其特征在于...

【技术特征摘要】

1.一种基于语境信息增强和交叉注意力的语音情绪分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于语境信息增强和交叉注意力的语音情绪分类方法,其特征在于,所述步骤s1中,对所述语音数据集进行预处理包括通过wave2vect2模型生成文本数据,如公式(1)所示:

3.根据权利要求1所述的一种基于语境信息增强和交叉注意力的语音情绪分类方法,其特征在于,所述步骤s2中,所述音频模态编码器包括特征编码器模块、transformer上下文表示模块和量化模块;

4.根据权利要求3所述的一种基于语境信息增强和交叉注意力的语音情绪分类方法,其特征在于,所述步骤s2中,所述音频模态编码器为wav2vec2.0模型。

5.根据权利要求1所述的一种基于语境信息增强和交叉注意力的语音情绪分类方法,其特征在于,所述步骤s2中,所述bert预训练模型通过bert-base-uncased对所述文本数据集中的文本数据进行文本特征提取,如公式(2)所示:

6.根据权利要求5所...

【专利技术属性】
技术研发人员:祁瑞华郭旭
申请(专利权)人:大连外国语大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1