多模态语音情感识别方法、装置、设备及存储介质制造方法及图纸

技术编号:38615722 阅读:13 留言:0更新日期:2023-08-26 23:43
本发明专利技术公开了一种多模态语音情感识别方法,该方法包括获取至少一个音频数据;对音频数据的音频内容进行音频特征提取,得到梅尔频谱图、过零率特征图以及频谱质心特征图;基于梅尔频谱图、过零率特征图以及频谱质心特征图,确定语调特征;对音频数据进行语音识别,得到文本内容,并对文本内容进行文本特征提取,得到内容特征;将语调特征和内容特征进行拼接,得到音频拼接特征,并通过音频拼接特征确定情感识别结果。本发明专利技术通过语调特征和内容特征对音频数据进行情感识别,实现了多模态对音频数据的情感识别,提升了金融或保险等行业中情感识别的准确性。以及在面对复杂语音数据时,也可以准确识别语音中的情感。也可以准确识别语音中的情感。也可以准确识别语音中的情感。

【技术实现步骤摘要】
多模态语音情感识别方法、装置、设备及存储介质


[0001]本专利技术涉及情感识别
,尤其涉及一种多模态语音情感识别方法、装置、设备及存储介质。

技术介绍

[0002]随着技术的发展,语音情感识别和自然语言处理已经取得了很大的进展,但由于人类情感的多变性和复杂性,人类仍然无法与机器进行自然地交流。因此,建立一套能够在人机交互中检测情感的系统是至关重要的。
[0003]现有技术中,情感识别通常是针对于单个模态,如:语音或图像等,在识别性能上存在一定的局限性,比如,现有技术中的情感识别主要利用的是语音中的声学特征和一些相关的韵律学特征,往往忽视了语音中的语调特征和文本特征。但在日常会话和社交中,语音往往是对一段文本内容的复述、二者密切相关。例如,在保险业务办理场景中,准确识别业务员回复用户的语音情绪十分重要,业务员回复的问题的情绪,影响着用户是否办理业务。如此,考虑到语音和文本模态之间的同一性、互补性和强相关联性,与单个模态相比,多种模态信息可以更加准确地捕捉情感。

技术实现思路

[0004]本专利技术实施例提供一种多模态语音情感识别方法、装置、设备及存储介质,以改善现有技术中单模态语音情感识别准确率较低的问题。
[0005]一种多模态语音情感识别方法,包括:
[0006]获取至少一个音频数据;
[0007]对所述音频数据的音频内容进行音频特征提取,得到梅尔频谱图、过零率特征图以及频谱质心特征图;
[0008]基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图,确定语调特征;
[0009]对所述音频数据进行语音识别,得到文本内容,并对所述文本内容进行文本特征提取,得到内容特征;
[0010]将所述语调特征和所述内容特征进行拼接,得到音频拼接特征,并对所述音频拼接特征进行情感识别,得到情感识别结果。
[0011]一种多模态语音情感识别装置,包括:
[0012]音频获取模块,用于获取至少一个音频数据;
[0013]音频特征提取模块,用于对所述音频数据的音频内容进行音频特征提取,得到梅尔频谱图、过零率特征图以及频谱质心特征图;
[0014]语调特征模块,用于基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图,确定语调特征;
[0015]文本特征提取模块,用于对所述音频数据进行语音识别,得到文本内容,并对所述
文本内容进行文本特征提取,得到内容特征;
[0016]情感识别模块,用于将所述语调特征和所述内容特征进行拼接,得到音频拼接特征,并对所述音频拼接特征进行情感识别,得到情感识别结果。
[0017]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述多模态语音情感识别方法。
[0018]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述多模态语音情感识别方法。
[0019]本专利技术提供一种多模态语音情感识别方法、装置、设备及存储介质,该方法通过对获取的音频数据进行音频特征提取,实现了对梅尔频谱图、过零率特征图以及频谱质心特征图的获取。通过将梅尔频谱图、过零率特征图以及频谱质心特征图进行对齐拼接以及语调提取,实现了对音频内容中的语调特征的提取。通过对音频数据进行语音识别,实现了对文本内容的获取。通过对文本内容进行文本特征提取,实现了对内容特征的确定。将语调特征和内容特征进行拼接,实现了对音频拼接特征的获取,进而实现了对音频数据中多模态信息的提取。通过对拼接得到的音频拼接特征进行情感识别,实现了对情感识别结果的获取,进而确保了情感识别结果有较高的准确率。进一步地,通过语调特征和内容特征对音频数据进行情感识别,实现了多模态对音频数据进行情感识别。进而在面对复杂语音数据时,也可以准确识别语音数据中的情感。通过多模态更准确的捕捉音频数据的情感,提升了金融或保险等行业中情感识别的准确性。
附图说明
[0020]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术一实施例中多模态语音情感识别方法的应用环境示意图;
[0022]图2是本专利技术一实施例中多模态语音情感识别方法的流程图;
[0023]图3是本专利技术一实施例中多模态语音情感识别方法步骤S30的流程图;
[0024]图4是本专利技术一实施例中文本模型训练方法的流程图;
[0025]图5是本专利技术一实施例中多模态语音情感识别装置的原理框图;
[0026]图6是本专利技术一实施例中计算机设备的示意图。
具体实施方式
[0027]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0028]本专利技术实施例提供的多模态语音情感识别方法,该多模态语音情感识别方法可应用如图1所示的应用环境中。具体地,该多模态语音情感识别方法应用在多模态语音情感识
别装置中,该多模态语音情感识别装置包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于改善现有技术中单模态语音情感识别准确率较低的问题。其中,该服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。客户端又称为用户端,是指与服务器相对应,为客户提供分类服务的程序。客户端可安装在但不限于各种计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。
[0029]在一实施例中,如图2所示,提供一种多模态语音情感识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
[0030]S10:获取至少一个音频数据。
[0031]可理解地,音频数据为需要进行情感识别的语音。例如,在人工客服场景中,音频数据为用户和客服之间的对话去噪后的数据。或者,在银行开户或证劵开户场景中,原始语音数据还可以是客户和工作人员的对话去噪后的数据。音频数据可以为从不同的数据库中获取的,也可以是由客户端发送到服务器中预先准备好的。
[0032]S20:对所述音频数据的音频内容进行音频特征提取,得到梅尔频谱图、过零率特征图以及频谱质心特征图。
[0033]S30,基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图,确定语调特征。
[0034]可理解地,梅尔频谱本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多模态语音情感识别方法,其特征在于,包括:获取至少一个音频数据;对所述音频数据的音频内容进行音频特征提取,得到梅尔频谱图、过零率特征图以及频谱质心特征图;基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图,确定语调特征;对所述音频数据进行语音识别,得到文本内容,并对所述文本内容进行文本特征提取,得到内容特征;将所述语调特征和所述内容特征进行拼接,得到音频拼接特征,并对所述音频拼接特征进行情感识别,得到情感识别结果。2.如权利要求1所述的多模态语音情感识别方法,其特征在于,所述基于所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图,确定语调特征,包括:对所述梅尔频谱图、所述过零率特征图以及所述频谱质心特征图进行对齐拼接,得到混合输入特征;通过预设的CNN网络对所述混合输入特征进行语调特征提取,得到语调特征。3.如权利要求1所述的多模态语音情感识别方法,其特征在于,所述对所述音频数据的音频内容进行音频特征提取,得到梅尔频谱图、过零率特征图以及频谱质心特征图,包括:通过librosa库中的梅尔频谱函数对所述音频内容进行特征提取,得到梅尔频谱图;通过librosa库中的过零率函数对所述音频内容进行特征提取,得到过零率特征图;通过librosa库中的频谱质心函数对所述音频内容进行特征提取,得到频谱质心特征图。4.如权利要求1所述的多模态语音情感识别方法,其特征在于,所述对所述文本内容进行文本特征提取,得到内容特征,包括:获取文本模型,通过所述文本模型的输入层对所述文本内容进行嵌入处理,得到输入向量;通过所述文本模型的注意力层对所述输入向量进行注意力处理,得到注意力向量;通过所述文本模型的输出层对所述注意力向量进行特征提取,得到内容特征。5.如权利要求4所述的多模态语音情感识别方法,其特征在于,所述获取文本模型之前,包括:获取样本训练数据集,所述样本训练数据集包括至少一个样本训练数据和与所述样本训练数据对应的样本标签;获取预设训练模型,通过所述预设训练模型对所述样本训练数据进行特...

【专利技术属性】
技术研发人员:张旭龙王健宗程宁赵嘉豪
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1