多模态语音情感识别方法、装置、设备及存储介质制造方法及图纸

技术编号：38615722 阅读：24 留言：0更新日期：2023-08-26 23:43

本发明专利技术公开了一种多模态语音情感识别方法，该方法包括获取至少一个音频数据；对音频数据的音频内容进行音频特征提取，得到梅尔频谱图、过零率特征图以及频谱质心特征图；基于梅尔频谱图、过零率特征图以及频谱质心特征图，确定语调特征；对音频数据进行语音识别，得到文本内容，并对文本内容进行文本特征提取，得到内容特征；将语调特征和内容特征进行拼接，得到音频拼接特征，并通过音频拼接特征确定情感识别结果。本发明专利技术通过语调特征和内容特征对音频数据进行情感识别，实现了多模态对音频数据的情感识别，提升了金融或保险等行业中情感识别的准确性。以及在面对复杂语音数据时，也可以准确识别语音中的情感。也可以准确识别语音中的情感。也可以准确识别语音中的情感。

全部详细技术资料下载

【技术实现步骤摘要】
多模态语音情感识别方法、装置、设备及存储介质

[0001]本专利技术涉及情感识别
，尤其涉及一种多模态语音情感识别方法、装置、设备及存储介质。

技术介绍

[0002]随着技术的发展，语音情感识别和自然语言处理已经取得了很大的进展，但由于人类情感的多变性和复杂性，人类仍然无法与机器进行自然地交流。因此，建立一套能够在人机交互中检测情感的系统是至关重要的。
[0003]现有技术中，情感识别通常是针对于单个模态，如：语音或图像等，在识别性能上存在一定的局限性，比如，现有技术中的情感识别主要利用的是语音中的声学特征和一些相关的韵律学特征，往往忽视了语音中的语调特征和文本特征。但在日常会话和社交中，语音往往是对一段文本内容的复述、二者密切相关。例如，在保险业务办理场景中，准确识别业务员回复用户的语音情绪十分重要，业务员回复的问题的情绪，影响着用户是否办理业务。如此，考虑到语音和文本模态之间的同一性、互补性和强相关联性，与单个模态相比，多种模态信息可以更加准确地捕捉情感。

技术实现思路

[0004]本专利技...

【技术保护点】

【技术特征摘要】
1.一种多模态语音情感识别方法，其特征在于，包括：获取至少一个音频数据；对所述音频数据的音频内容进行音频特征提取，得到梅尔频谱图、过零率特征图以及频谱质心特征图；基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图，确定语调特征；对所述音频数据进行语音识别，得到文本内容，并对所述文本内容进行文本特征提取，得到内容特征；将所述语调特征和所述内容特征进行拼接，得到音频拼接特征，并对所述音频拼接特征进行情感识别，得到情感识别结果。2.如权利要求1所述的多模态语音情感识别方法，其特征在于，所述基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图，确定语调特征，包括：对所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图进行对齐拼接，得到混合输入特征；通过预设的CNN网络对所述混合输入特征进行语调特征提取，得到语调特征。3.如权利要求1所述的多模态语音情感识别方法，其特征在于，所述对所述音频数据的音频内容进行音频特征提取，得到梅尔频谱图、过零率特征图以及频谱质心特征图，包括：通过librosa库中的梅尔频谱函数对所述音频内容进行特征提取，得到梅尔频谱图；通过librosa库中的过零率函数对所述音频内容进行特征提取，得到过零率特征图；通过librosa库中的频谱质心函数对所述音频内容进行特征提取，得到频谱质心特征图。4.如权利要求1所述的多模态语音情感识别方法，其特征在于，所述对所述文本内容进行文本特征提取，得到内容特征，包括：获取文本模型，通过所述文本模型的输入层对所述文本内容进行嵌入处理，得到输入向量；通过所述文本模型的注意力层对所述输入向量进行注意力处理，得到注意力向量；通过所述文本模型的输出层对所述注意力向量进行特征提取，得到内容特征。5.如权利要求4所述的多模态语音情感识别方法，其特征在于，所述获取文本模型之前，包括：获取样本训练数据集，所述样本训练数据集包括至少一个样本训练数据和与所述样本训练数据对应的样本标签；获取预设训练模型，通过所述预设训练模型对所述样本训练数据进行特...

【专利技术属性】
技术研发人员：张旭龙，王健宗，程宁，赵嘉豪，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人