一种双模态语音情感识别方法及系统技术方案

技术编号：41336429 阅读：8 留言：0更新日期：2024-05-20 09:55

本发明专利技术公开一种双模态语音情感识别方法及系统，涉及情绪识别技术领域，包括：获取待识别语音数据的语音信号，并提取其中的文本信息；对语音信号进行分帧处理后输入语音预训练模型中进行编码，获得语音信号的高级特征；提取语音信息中的声学特征，将高级特征与声学特征按帧拼接，获得语音特征序列；使用文本预训练模型提取出文本特征序列；提取语音特征序列和文本特征序列中的关键情感特征并添加时序信息，获得语音深度情感特征和文本深度情感特征；采用模态融合算法将语音深度情感特征和文本深度情感特征进行融合，获得语音情感特征来对待识别语音数据进行情感识别；将语音与文本两种模态的信息有机地融合，提高了情感识别的准确性和鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及情绪识别，具体涉及一种双模态语音情感识别方法及系统。

技术介绍

1、情绪识别是人工智能研究中十分重要的一个分支领域，在教育医疗、商业营销分析与智能机器人等方面都存在着良好的应用前景。近年来，各大公司推出了许多的智能语音助手，如百度小度、小米小爱、微软小冰等，让用户可以通过语音文字等方式进行人机交互，但若想实现更加真实的智能交互，则需要语音助手能够更加精准的理解分析出用户的情绪状态，并做出合理的回应。

2、目前，语音情绪识别主要是通过提取语音不同的声学特征与频谱特征，再利用深度学习网络分析学习这些特征中含有的情感信息，以实现情绪识别。这种方法仍存在着一些问题，一方面提取出的声学特征与频谱特征的表征能力一般，无法很好的对语音信息进行高效的表示；另一方面，在情绪识别中，使用单一模态的数据往往存在信息的局限性，无法充分挖掘表达者的情绪信息。

技术实现思路

1、针对现有技术使用单一模态的数据往往存在信息的局限性，无法充分挖掘表达者的情绪信息的不足，本专利技术提出一种双模态语音情感识别方法及系统，通过利用语音中的音频和文本，以更全面地分析和识别个体的情感状态，从而解决现有技术使用单一模态的数据往往存在信息的局限性，无法充分挖掘表达者的情绪信息的问题。

2、一种双模态语音情感识别方法，包括以下步骤：

3、获取待识别语音数据的语音信号，并提取其中的文本信息；

4、对语音信号进行分帧处理，将分帧后的每帧语音信号输入语音预训练模型中进行编码，获得语音信号的高级特征；

5、提取语音信息中的mfcc声学特征，并将语音信号的高级特征与声学特征按帧拼接，获得语音特征序列；

6、使用文本预训练模型提取文本信息的高级特征，构建出文本特征序列；

7、使用自注意力机制分别提取语音特征序列和文本特征序列中的关键情感特征，并通过长短期记忆神经网络给每个关键情感特征分别添加时序信息，获得语音深度情感特征和文本深度情感特征；

8、采用模态融合算法将语音深度情感特征和文本深度情感特征进行融合，获得语音情感特征；

9、根据语音情感特征对待识别语音数据进行情感识别。

10、进一步地，通过语音转录api或本地语音转录模型对语音信号进行转录，提取其中的文本信息。

11、进一步地，所述对语音信号进行分帧处理，将分帧后的每帧语音信号输入语音预训练模型中进行编码，获得语音信号的高级特征，具体包括以下步骤：

12、将语音信号以20ms的长度为一帧的方式进行切分，获得语音序列a＝{a1,a2,a3,…,an}；

13、将语音序列输入卷积神经网络cnn中进行编码，获取中间特征序列m＝{m1,m2,m3,…,mn}。

14、进一步地，还包括在将语音序列输入卷积神经网络cnn中进行编码时对transformer的编码形式进行改进，在中间特征序列m中的每个元素加入相对位置编码其表示为：

15、

16、其中，ri-j是i相对j的位置编码，u和v是待学习的参数，wk被分解为和分别表示输入和位置编码；

17、将加入相对位置编码后的中间特征序列m输入经过改进的transformer encoder中，利用序列上下文特征信息来预测中间特征的信息，初步融合上下文信息，获得语音信号的预训练特征fhubert＝{h1,h2,h3,…,hn}；

18、f＝transformer(m)

19、其中，fhubert∈rn×768，n为语音帧数。

20、进一步地，所述提取语音信息中的mfcc声学特征，具体包括以下步骤：

21、将语音信号序列a＝{a1,a2,a3,…,an}乘上汉明窗w(i,k)，得到a'＝{a'1,a'2,a'3,…,a'n}，表示为：

22、

23、a'＝a*w(i,k)

24、对特征a'进行傅里叶变换得到各帧在频谱上的能量分布，并对语音信号的频谱取模平方得到语音信号的功率谱；

25、设语音信号的dft为：

26、

27、其中，a'i为经过加窗输入的语音信号；

28、将得到每帧的功率谱通过一组mel尺度的三角形滤波器组，计算每个滤波器组输出的对数能量；

29、将对数能量带入离散余弦变换，求出l阶的mel参数；其中，所述l阶为mfcc系数阶数，进而获取每帧信号的mfcc声学特征，其包括以下步骤：

30、定义一个有m个滤波器的滤波器组，其中采用的滤波器为三角滤波器，中心频率为f(m)，m取值在22-26之间，各f(m)之间的间隔随着m值的减小而缩小，随着m值的增大而增宽；

31、三角滤波器的频率响应定义为:

32、

33、计算每个滤波器组输出的对数能量为：

34、

35、经离散余弦变换(dct)得到mfcc系数:

36、

37、将上述的对数能量带入离散余弦变换，求出l阶的mel参数，l阶指mfc c系数阶数本通常取13，m是三角滤波器个数；

38、经离散余弦变换(dct)得到mfcc系数：

39、

40、将对数能量带入离散余弦变换，求出l阶的mel参数；

41、获取每帧信号的mfcc特征，fmfcc＝{mfcc1,mfcc2,mfcc3,…,mfccn}。

42、进一步地，所述将语音信号的高级特征与声学特征按帧拼接，获得语音特征序列；其具体包括以下步骤：

43、将高级语音特征fhubert＝{h1,h2,h3,…,hn}与mfcc声学特征按照帧的维度进行拼接，获取语音的模态特征序列。

44、进一步地，所述使用文本预训练模型提取文本信息的高级特征，构建出文本特征序列；其包括以下步骤：

45、假设文本初始序列为t＝{w1,w2,w3,…,wn}，其中wi代表文本序列中的第i个字；

46、对文本初始序列的首尾分别添加补充cls、sep，得到：

47、t＝[wcls,w1,w2,……,wn,wsep]

48、使用库函数bert tokenizer处理输入的文本序列t，得到input_ids、token_type_ids、attention_mask三个列表；

49、将三个列表送入文本预训练模型中获取文本的高级特征序列其中ft∈rn×768大小为n×768，每个字获得一个768维的词向量。

50、进一步地，所述使用自注意力机制分别提取语音特征序列和文本特征序列中的关键情感特征，并通过长短期记忆神经网络给每个关键情感特征分别添加时序信息，获得语音深度情感特征和文本深度情感特征，包括以下步骤：

51、对语音特征序列创建三个学习矩阵对文本特征序列创建三个学习矩阵通过以下方式获取自注意力机制输入。<本文档来自技高网...

【技术保护点】

1.一种双模态语音情感识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种双模态语音情感识别方法，其特征在于，通过语音转录API或本地语音转录模型对语音信号进行转录，提取其中的文本信息。

3.根据权利要求1所述的一种双模态语音情感识别方法，其特征在于，所述对语音信号进行分帧处理，将分帧后的每帧语音信号输入语音预训练模型中进行编码，获得语音信号的高级特征，具体包括以下步骤：

4.根据权利要求3所述的一种双模态语音情感识别方法，其特征在于，还包括在将语音序列输入卷积神经网络CNN中进行编码时对Transformer的编码形式进行改进，在中间特征序列M中的每个元素加入相对位置编码其表示为：

5.根据权利要求1所述的一种双模态语音情感识别方法，其特征在于，所述提取语音信息中的MFCC声学特征，具体包括以下步骤：

6.根据权利要求1所述的一种双模态语音情感识别方法，其特征在于，所述将语音信号的高级特征与声学特征按帧拼接，获得语音特征序列；其具体包括以下步骤：

7.根据权利要求6所述的一种双模态语音情感识别

8.根据权利要求7所述的一种双模态语音情感识别方法，其特征在于，所述使用自注意力机制分别提取语音特征序列和文本特征序列中的关键情感特征，并通过长短期记忆神经网络给每个关键情感特征分别添加时序信息，获得语音深度情感特征和文本深度情感特征，包括以下步骤：

9.根据权利要求1所述的一种双模态语音情感识别方法，其特征在于，所述采用模态融合算法将语音深度情感特征和文本深度情感特征进行融合，获得语音情感特征，包括以下步骤：

10.一种双模态语音情感识别系统，其特征在于，包括：

...

【技术特征摘要】

1.一种双模态语音情感识别方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种双模态语音情感识别方法，其特征在于，通过语音转录api或本地语音转录模型对语音信号进行转录，提取其中的文本信息。

4.根据权利要求3所述的一种双模态语音情感识别方法，其特征在于，还包括在将语音序列输入卷积神经网络cnn中进行编码时对transformer的编码形式进行改进，在中间特征序列m中的每个元素加入相对位置编码其表示为：

5.根据权利要求1所述的一种双模态语音情感识别方法，其特征在于，所述提取语音信息中的mfcc声学特征，具体包括以下步骤：

6.根据权利...

【专利技术属性】
技术研发人员：张杰，曹晖，申美伦，
申请(专利权)人：中国人民解放军空军军医大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人