语音情绪识别模型训练方法、情绪识别方法、装置和设备制造方法及图纸

技术编号:33476114 阅读:19 留言:0更新日期:2022-05-19 00:51
本公开提供了一种语音情绪识别模型训练方法、情绪识别方法、装置和设备。涉及人工智能领域,尤其涉及智能语音识别、智能情绪识别领域。具体实现方案为:获取样本音频的第一特征和第二特征,其中,该第一特征用于表征与该样本音频的波形有关的特征,该第二特征用于表征与该样本音频的说话者有关的特征;利用该第一特征和该第二特征进行情绪特征解耦;利用解耦得到的情绪特征进行情绪识别训练,得到训练后的语音情绪识别模型。本公开采用解耦得到的情绪特征进行情绪识别训练,训练后的语音情绪识别模型能够更加准确的进行情绪识别。别模型能够更加准确的进行情绪识别。别模型能够更加准确的进行情绪识别。

【技术实现步骤摘要】
语音情绪识别模型训练方法、情绪识别方法、装置和设备


[0001]本公开涉及人工智能领域,尤其涉及智能语音识别、智能情绪识别领域,具体涉及一种语音情绪识别模型训练方法、情绪识别方法、装置和设备。

技术介绍

[0002]语音是人类交流中情感的重要载体。语音识别主要关注说话者说了什么。情绪识别主要关注说话者是在什么情绪下说的。人们在不同情绪状态下的语言表达方式会有所不同,例如高兴时说话的语调会比较欢快,而烦躁伤心时语气比较沉闷。
[0003]深度学习技术加速了从语音中检测情绪的进展,但是这方面的研究仍存在不足。语音情绪检测的困难在于,一句话表达的情感是什么可能是因人而异的。不同人对于同一段语音,理解出的情感不尽相同,而且存在一定的文化差异,因此语音情绪识别的准确率不高。

技术实现思路

[0004]本公开提供了一种语音情绪识别模型训练方法、情绪识别方法、装置、设备以及存储介质。
[0005]根据本公开的一方面,提供了一种语音情绪识别模型训练方法,包括:
[0006]获取样本音频的第一特征和第二特征,其中,该第一特征用于表征与该样本音频的波形有关的特征,该第二特征用于表征与该样本音频的说话者有关的特征;
[0007]利用该第一特征和该第二特征进行情绪特征解耦;
[0008]利用解耦得到的情绪特征进行情绪识别训练,得到训练后的语音情绪识别模型。
[0009]根据本公开的另一方面,提供了一种情绪识别方法,包括:
[0010]获取待识别音频的第一特征和第二特征,其中,该第一特征用于表征与该待识别音频的波形有关的特征,该第二特征用于表征与该待识别音频的说话者有关的特征;
[0011]将该第一特征和该第二特征输入语音情绪识别模型进行情绪类别识别,得到第一识别结果;
[0012]其中,该语音情绪识别模型为采用本公开实施例的语音情绪识别模型的训练方法训练得到的语音情绪识别模型。
[0013]根据本公开的另一方面,提供了一种语音情绪识别模型训练装置,包括:
[0014]获取模块,用于获取样本音频的第一特征和第二特征,其中,该第一特征用于表征与该样本音频的波形有关的特征,该第二特征用于表征与该样本音频的说话者有关的特征;
[0015]解耦模块,用于利用该第一特征和该第二特征进行情绪特征解耦;
[0016]训练模块,用于利用解耦得到的情绪特征进行情绪识别训练,得到训练后的语音情绪识别模型。
[0017]根据本公开的另一方面,提供了一种情绪识别装置,包括:
[0018]获取模块,用于获取待识别音频的第一特征和第二特征,其中,该第一特征用于表征与该待识别音频的波形有关的特征,该第二特征用于表征与该待识别音频的说话者有关的特征;
[0019]第一识别模块,用于将该第一特征和该第二特征输入语音情绪识别模型进行情绪类别识别,得到第一识别结果;
[0020]其中,该语音情绪识别模型为采用本公开实施例的语音情绪识别装置训练得到的语音情绪识别模型。
[0021]根据本公开的另一方面,提供了一种电子设备,包括:
[0022]至少一个处理器;以及
[0023]与该至少一个处理器通信连接的存储器;其中,
[0024]该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开中任一实施例的方法。
[0025]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使该计算机执行根据本公开中任一实施例的方法。
[0026]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,该计算机程序在被处理器执行时实现根据本公开中任一实施例的方法。
[0027]本公开采用解耦得到的情绪特征进行情绪识别训练,训练后的语音情绪识别模型能够更加准确的进行情绪识别。
[0028]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0029]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0030]图1是根据本公开一实施例的语音情绪识别模型训练方法的流程示意图;
[0031]图2是根据本公开另一实施例的语音情绪识别模型训练方法的流程示意图;
[0032]图3是根据本公开另一实施例的语音情绪识别模型训练方法的流程示意图;
[0033]图4是根据本公开另一实施例的语音情绪识别模型训练方法的流程示意图;
[0034]图5是根据本公开另一实施例的语音情绪识别模型训练方法的流程示意图;
[0035]图6是根据本公开一实施例的情绪识别方法的流程示意图;
[0036]图7是根据本公开另一实施例的情绪识别方法的流程示意图;
[0037]图8是根据本公开一实施例的语音情绪识别模型训练装置的结构示意图;
[0038]图9是根据本公开另一实施例的语音情绪识别模型训练装置的结构示意图;
[0039]图10是根据本公开另一实施例的语音情绪识别模型训练装置的结构示意图;
[0040]图11是根据本公开另一实施例的语音情绪识别模型训练方法的结构示意图;
[0041]图12是根据本公开一实施例的情绪识别装置的结构示意图;
[0042]图13是根据本公开另一实施例的情绪识别装置的结构示意图;
[0043]图14是根据一种语音情绪识别流程的示例的示意图;
[0044]图15是根据本公开实施例的语音情绪识别框架的示意图;
[0045]图16是根据本公开实施例的语音情绪识别流程的示意图;
[0046]图17是用来实施本公开的实施例的示例电子设备的示意性框图。
具体实施方式
[0047]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0048]图1是根据本公开一实施例的语音情绪识别模型训练方法的流程示意图,该方法包括:
[0049]S101、获取样本音频的第一特征和第二特征,其中,该第一特征用于表征与该样本音频的波形有关的特征,该第二特征用于表征与该样本音频的说话者有关的特征;
[0050]S102、利用该第一特征和该第二特征进行情绪特征解耦;
[0051]S103、利用解耦得到的情绪特征进行情绪识别训练,得到训练后的语音情绪识别模型。
[0052]在本公开实施例中,音频中可能反映说话者的情绪包括多种。例如生气、开心、中立、伤心、激动、恐惧等。情绪也可能被称为情感、感情等。说话者一般是人,也本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音情绪识别模型训练方法,包括:获取样本音频的第一特征和第二特征,其中,所述第一特征用于表征与所述样本音频的波形有关的特征,所述第二特征用于表征与所述样本音频的说话者有关的特征;利用所述第一特征和所述第二特征进行情绪特征解耦;利用解耦得到的情绪特征进行情绪识别训练,得到训练后的语音情绪识别模型。2.根据权利要求1所述的方法,获取样本音频的第一特征包括:利用波形到向量Wav2vec模型从所述样本音频中提取所述第一特征。3.根据权利要求2所述的方法,其中,利用Wav2vec模型从所述样本音频中提取所述第一特征,包括:对所述样本音频进行分帧,得到多个第一音频帧;从所述多个第一音频帧中提取至少一个音频片段输入所述Wav2vec模型,得到所述第一特征,所述第一特征包括所述音频片段的Wav2vec特征。4.根据权利要求1至3中任一项所述的方法,获取样本音频的第二特征包括:利用说话者分类模型从所述样本音频中提取所述第二特征。5.根据权利要求4所述的方法,其中,利用说话者分类模型从所述样本音频中提取所述第二特征,包括:对所述样本音频进行分帧,得到多个第二音频帧;将所述多个第二音频帧输入所述说话者分类模型,得到所述第二特征。6.根据权利要求1至5中任一项所述的方法,其中,利用所述第一特征和所述第二特征进行情绪特征解耦,包括:将所述第一特征和所述第二特征输入编码器进行编码处理,以实现情绪特征解耦。7.根据权利要求6所述的方法,其中,所述编码器包括权重平均层、第一连接层、第一卷积正则化层、双向长短时记忆BLSTM层和降采样层,将所述第一特征和所述第二特征输入编码器进行编码处理,包括:将所述第一特征输入所述权重平均层;将所述第二特征输入所述第一连接层;在所述第一连接层将所述权重平均层的输出特征和所述第二特征拼接,得到第一拼接特征;将所述第一拼接特征输入串联的所述第一卷积正则化层、所述BLSTM层和所述降采样层依次进行处理,得到所述编码器的输出特征,所述编码器的输出特征包括解耦后的情绪特征。8.根据权利要求6或7所述的方法,其中,所述方法还包括:利用音素对齐模型从所述样本音频中提取所述音素特征;利用所述第一特征和所述第二特征进行情绪特征解耦,还包括:将所述编码器的输出特征、所述第二特征和所述音素特征,输入解码器进行解码处理;利用所述解码器的输出特征,更新所述编码器、所述解码器和所述音素对齐模型的至少之一的参数。9.根据权利要求8所述的方法,其中,所述解码器包括升采样层、第二连接层、长短时记忆LSTM层、第一线性层和第二卷积正则化层,将所述编码器的输出特征、所述第二特征和所
述音素特征,输入解码器进行解码处理,包括:将所述编码器的输出特征输入所述升采样层进行升采样;将所述第二特征和所述音素特征输入所述第二连接层;在所述第二连接层将升采样得到的特征、所述第二特征和所述音素特征进行拼接,得到第二拼接特征;将所述第二拼接特征输入串联的所述LSTM层、第一线性层依次进行处理,得到第一梅尔谱特征和第一误差;将所述第一梅尔谱特征输入所述第二卷积正则化层进行卷积正则化处理,得到第二梅尔谱特征和第二误差。10.根据权利要求9所述的方法,其中,利用所述解码器的输出特征,更新所述编码器、所述解码器和所述音素对齐模型的至少之一的参数,包括:利用所述第一误差和所述第二误差按照随机梯度下降准则,更新所述编码器、所述解码器和所述音素对齐模型的至少之一的参数。11.根据权利要求6至10中任一项所述的方法,其中,利用解耦得到的情绪特征进行情绪识别训练,包括:将所述编码器的输出特征,输入情绪识别分类器进行情绪类别识别,并利用情绪类别识别结果更新所述编码器和所述情绪识别分类器的参数。12.根据权利要求11所述的方法,其中,所述情绪识别分类器包括第二线性层、丢弃层和第三线性层,将所述编码器的输出特征,输入情绪识别分类器进行情绪类别识别,并利用情绪类别识别结果更新所述编码器和所述情绪识别分类器的参数,包括:将所述编码器的输出特征输入串联的所述第二线性层、所述丢弃层和所述第三线性层依次进行处理,得到情绪识别结果;利用所述情绪识别结果的交叉熵计算损失;利用所述损失更新所述编码器和/或所述情绪识别分类器的参数。13.一种情绪识别方法,包括:获取待识别音频的第一特征和第二特征,其中,所述第一特征用于表征与所述待识别音频的波形有关的特征,所述第二特征用于表征与所述待识别音频的说话者有关的特征;将所述第一特征和所述第二特征输入语音情绪识别模型进行情绪类别识别,得到第一识别结果;其中,所述语音情绪识别模型为采用权利要求1至13中任一项所述的训练方法训练得到的语音情绪识别模型。14.根据权利要求13所述的方法,其中,获取待识别音频的第一特征包括:利用Wav2vec模型从所述待识别音频中提取所述第一特征。15.根据权利要求14所述的方法,其中,利用Wav2vec模型从所述待识别音频中提取所述第一特征,包括:对所述待识别音频进行分帧,得到多个第一音频帧;从所述多个第一音频帧中提取至少一个音频片段输入所述Wav2vec模型,得到所述第一特征,所述第一特征包括所述音频片段的Wav2vec特征。16.根据权利要求13至15中任一项所述的方法,其中,获取待识别音频的第二特征包
括:利用说话者分类模型从所述待识别音频中提取所述第二特征。17.根据权利要求16所述的方法,其中,利用说话者分类模型从所述待识别音频中提取所述第二特征,包括:对所述待识别音频进行分帧,得到多个第二音频帧;将所述多个第二音频帧输入所述说话者分类模型,得到所述第二特征。18.根据权利要求13至17中任一项所述的方法,其中,所述方法还包括:利用文本情绪识别模型对待识别音频对应的文本内容进行文本识别,得到第二识别结果;对所述第一识别结果和第二识别结果进行加权处理,得到第三识别结果。19.一种语音情绪识别模型训练装置,包括:获取模块,用于获取样本音频的第一特征和第二特征,其中,所述第一特征用于表征与所述样本音频的波形有关的特征,所述第二特征用于表征与所述样本音频的说话者有关的特征;解耦模块,用于利用...

【专利技术属性】
技术研发人员:赵情恩梁芸铭张银辉熊新雷周羊
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1