System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 语音情绪识别方法及装置制造方法及图纸_技高网

语音情绪识别方法及装置制造方法及图纸

技术编号:40115803 阅读:9 留言:0更新日期:2024-01-23 19:53
本申请提供一种语音情绪识别方法及装置,该语音情绪识别方法包括:获取当前音频帧的第一音频特征编码和历史音频帧的文本特征信息,其中,历史音频帧在当前音频帧之前;基于历史音频帧的文本特征信息预测当前音频帧的文本特征编码;融合当前音频帧的第一音频特征编码和文本特征编码,得到融合特征向量;基于融合特征向量进行语音情绪识别,得到当前音频帧的语音情绪识别结果。本申请先利用历史音频帧的文本特征信息预测出当前音频帧的文本特征编码,然后把当前音频帧的文本特征编码和第一音频特征编码融合后进行语音情绪识别,将音频信息与文本信息进行深度融合,能够提高语音情绪识别的准确度。

【技术实现步骤摘要】

本申请主要涉及人工智能,具体涉及一种语音情绪识别方法及装置


技术介绍

1、智能电话客服场景下,可以通过对通话进行情绪分析,提供商业决策支持,主流有两种解决方案,一是通过对客服语音声学建模,捕捉说话语音语速,声调,辅助音及频谱域的变化,通过定义情绪类别标签,输入特征到统计模型或者深度模型,进行情绪标签分类。二是asr转写以后的文本进行信息挖掘,判断说话人的情绪,为客服质检提供参考依据。以上技术路线:都是基于声学特征和文本特征“相互独立生成”的模型框架下,这样的方式存在着以下不足:没有利用声学特征和文本特征的在特征空间的耦合作用,导致语音情绪识别准确度较低。

2、也即,现有技术中语音情绪识别准确度较低。


技术实现思路

1、本申请提供一种语音情绪识别方法及装置,旨在解决现有技术中语音情绪识别准确度较低的问题。

2、第一方面,本申请提供一种语音情绪识别方法,所述语音情绪识别方法包括:

3、获取当前音频帧的第一音频特征编码和历史音频帧的文本特征信息,其中,所述历史音频帧在所述当前音频帧之前;

4、基于所述历史音频帧的文本特征信息预测所述当前音频帧的文本特征编码;

5、融合所述当前音频帧的第一音频特征编码和所述文本特征编码,得到融合特征向量;

6、基于所述融合特征向量进行语音情绪识别,得到所述当前音频帧的语音情绪识别结果。

7、可选地,所述基于所述融合特征向量进行语音情绪识别,得到所述当前音频帧的语音情绪识别结果,包括:

8、基于teager能量算子对所述当前音频帧进行特征提取,得到第二音频特征;

9、对所述第二音频特征进行编码,得到所述当前音频帧的第二音频特征编码;

10、基于所述第二音频特征编码和所述融合特征向量进行语音情绪识别,得到所述当前音频帧的语音情绪识别结果。

11、可选地,所述基于所述第二音频特征编码和所述融合特征向量进行语音情绪识别,得到所述当前音频帧的语音情绪识别结果,包括:

12、基于预设注意力层对所述融合特征向量进行权重调整,得到第一目标特征向量;

13、融合所述第一目标特征向量和所述第二音频特征编码,得到第二目标特征向量;

14、将所述第二目标特征向量输入目标情绪识别模型,得到所述当前音频帧的语音情绪识别结果。

15、可选地,所述基于预设注意力层对所述融合特征向量进行权重调整,得到第一目标特征向量,包括:

16、将所述融合特征向量输入softmax层,得到预测文本概率分布;

17、将所述预测文本概率分布和所述融合特征向量输入所述预设注意力层对所述融合特征向量进行权重调整,得到所述第一目标特征向量。

18、可选地,所述获取当前音频帧的第一音频特征编码和历史音频帧的文本特征信息,包括:

19、对所述当前音频帧进行fbank特征提取,得到所述当前音频帧的第一音频特征;

20、对所述当前音频帧的第一音频特征进行编码,得到所述当前音频帧的第一音频特征编码。

21、可选地,所述获取当前音频帧的第一音频特征编码和历史音频帧的文本特征信息,包括:

22、判断所述历史音频帧之前是否存在音频帧;

23、若所述历史音频帧之前不存在音频帧,则获取历史音频帧的第一音频特征编码和预设文本特征编码;

24、基于所述历史音频帧的第一音频特征编码和所述预设文本特征编码确定所述历史音频帧的文本特征信息。

25、可选地,所述基于所述历史音频帧的第一音频特征编码和所述预设文本特征编码确定所述历史音频帧的文本特征信息,包括:

26、融合所述历史音频帧的第一音频特征编码和预设文本特征编码,得到历史融合特征向量;

27、将所述历史融合特征向量输入softmax层,得到所述历史音频帧的历史预测文本概率分布;

28、基于所述历史预测文本概率分布确定所述历史音频帧的文本特征信息。

29、第二方面,本申请提供一种语音情绪识别装置,所述语音情绪识别装置包括:

30、获取单元,用于获取当前音频帧的第一音频特征编码和历史音频帧的文本特征信息,其中,所述历史音频帧在所述当前音频帧之前;

31、预测单元,用于基于所述历史音频帧的文本特征信息预测所述当前音频帧的文本特征编码;

32、融合单元,用于融合所述当前音频帧的第一音频特征编码和所述文本特征编码,得到融合特征向量;

33、识别单元,用于基于所述融合特征向量进行语音情绪识别,得到所述当前音频帧的语音情绪识别结果。

34、可选地,所述识别单元,用于:

35、基于teager能量算子对所述当前音频帧进行特征提取,得到第二音频特征;

36、对所述第二音频特征进行编码,得到所述当前音频帧的第二音频特征编码;

37、基于所述第二音频特征编码和所述融合特征向量进行语音情绪识别,得到所述当前音频帧的语音情绪识别结果。

38、可选地,所述识别单元,用于:

39、基于预设注意力层对所述融合特征向量进行权重调整,得到第一目标特征向量;

40、融合所述第一目标特征向量和所述第二音频特征编码,得到第二目标特征向量;

41、将所述第二目标特征向量输入目标情绪识别模型,得到所述当前音频帧的语音情绪识别结果。

42、可选地,所述识别单元,用于:

43、将所述融合特征向量输入softmax层,得到预测文本概率分布;

44、将所述预测文本概率分布和所述融合特征向量输入所述预设注意力层对所述融合特征向量进行权重调整,得到所述第一目标特征向量。

45、可选地,所述获取单元,用于:

46、对所述当前音频帧进行fbank特征提取,得到所述当前音频帧的第一音频特征;

47、对所述当前音频帧的第一音频特征进行编码,得到所述当前音频帧的第一音频特征编码。

48、可选地,所述获取单元,用于:

49、判断所述历史音频帧之前是否存在音频帧;

50、若所述历史音频帧之前不存在音频帧,则获取历史音频帧的第一音频特征编码和预设文本特征编码;

51、基于所述历史音频帧的第一音频特征编码和所述预设文本特征编码确定所述历史音频帧的文本特征信息。

52、可选地,所述获取单元,用于:

53、融合所述历史音频帧的第一音频特征编码和预设文本特征编码,得到历史融合特征向量;

54、将所述历史融合特征向量输入softmax层,得到所述历史音频帧的历史预测文本概率分布;

55、基于所述历史预测文本概率分布确定所述历史音频帧的文本特征信息。

56、第三方面,本申请提供一种计算机设备,所述计算机设备包括:

57、一个或本文档来自技高网...

【技术保护点】

1.一种语音情绪识别方法,其特征在于,所述语音情绪识别方法包括:

2.根据权利要求1所述的语音情绪识别方法,其特征在于,所述基于所述融合特征向量进行语音情绪识别,得到所述当前音频帧的语音情绪识别结果,包括:

3.根据权利要求2所述的语音情绪识别方法,其特征在于,所述基于所述第二音频特征编码和所述融合特征向量进行语音情绪识别,得到所述当前音频帧的语音情绪识别结果,包括:

4.根据权利要求3所述的语音情绪识别方法,其特征在于,所述基于预设注意力层对所述融合特征向量进行权重调整,得到第一目标特征向量,包括:

5.根据权利要求1所述的语音情绪识别方法,其特征在于,所述获取当前音频帧的第一音频特征编码和历史音频帧的文本特征信息,包括:

6.根据权利要求1所述的语音情绪识别方法,其特征在于,所述获取当前音频帧的第一音频特征编码和历史音频帧的文本特征信息,包括:

7.根据权利要求6所述的语音情绪识别方法,其特征在于,所述基于所述历史音频帧的第一音频特征编码和所述预设文本特征编码确定所述历史音频帧的文本特征信息,包括:>

8.一种语音情绪识别装置,其特征在于,所述语音情绪识别装置包括:

9.一种计算机设备,其特征在于,所述计算机设备包括:

10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7中任一项所述的语音情绪识别方法的步骤。

...

【技术特征摘要】

1.一种语音情绪识别方法,其特征在于,所述语音情绪识别方法包括:

2.根据权利要求1所述的语音情绪识别方法,其特征在于,所述基于所述融合特征向量进行语音情绪识别,得到所述当前音频帧的语音情绪识别结果,包括:

3.根据权利要求2所述的语音情绪识别方法,其特征在于,所述基于所述第二音频特征编码和所述融合特征向量进行语音情绪识别,得到所述当前音频帧的语音情绪识别结果,包括:

4.根据权利要求3所述的语音情绪识别方法,其特征在于,所述基于预设注意力层对所述融合特征向量进行权重调整,得到第一目标特征向量,包括:

5.根据权利要求1所述的语音情绪识别方法,其特征在于,所述获取当前音频帧的第一音频特征编码和历...

【专利技术属性】
技术研发人员:刘汝洲
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1