本发明专利技术公开了一种语音情感识别方法、系统、电子设备及计算机可读存储介质,属于语音信号处理与模式识别技术领域。包括获取语音信号并进行预处理,对预处理后的语音信号进行声学特征提取,对提取到的声学特征数据进行标准化处理;将标准化处理后的声学特征数据输入训练好的语音情感识别模型进行处理并分类,获取语音情感识别结果;其中,语音情感识别模型包括长短期记忆网络、编码器、双向长短期记忆网络和SoftMax分类模块。能够避免在输入到神经网络中时丢失时间信息,充分提取和处理时序特征;解决了现有技术中存在“有较好的运用语音的情感声学特征,尤其是时间序列的特征,出现梯度消失和信息损失”的问题。的问题。的问题。
【技术实现步骤摘要】
一种语音情感识别方法及系统
[0001]本申请涉及语音信号处理与模式识别
,特别是涉及一种语音情感识别方法及系统。
技术介绍
[0002]本部分的陈述仅仅是提到了与本申请相关的
技术介绍
,并不必然构成现有技术。
[0003]情感是人类日常活动中存在的一个重要方面,能够帮助人们相互理解并帮助人们做出决策,还能够在安全和安保的背景下协助沟通。例如,当与心烦意乱的人分享时,我们可以更加小心和温柔,以避免伤害那个人。
[0004]识别人类情感有不同的方式,例如通过语音、文本和面部表情进行识别,而语音显然是研究人类情感的重要渠道和来源。语音情感识别的任务是识别通过人类语言表达的情感,语音情感识别在众多应用中发挥了重要作用,例如人机交互(HCI),人机界面,智能呼叫中心,智能教学系统等。
[0005]此外,添加语音情感识别功能被认为是创建可以像人类一样工作的设备的关键因素。因此,语音情感识别研究仍在积极进行,并且引起了许多研究人员的越来越大的兴趣,以开发性能更好的语音情感识别模型。
[0006]现有技术中,大多数的语音情感识别研究都集中在机器学习(ML)架构上,以开发语音情感识别模型。此方法涉及从原始语音数据中提取特征,提取的特征用作输入,以基于输入输出对的样本来训练机器学习算法;训练后,机器学习算法从验证和测试数据中预测情绪。语音中不同类型的特征,如韵律、语音质量、频谱、小波、频谱图图像和深层特征,已在当前的语音情感识别模型中得到广泛应用。然而,迄今为止,还没有一个单一的特征集被确定为识别语音数据中情绪的一站式解决方案。研究人员经常执行测试或组合大量特征以获得一些见解,并且可以使用各种特征选择方法来删除冗余特征;选择用于执行分类任务的ML架构的过程在语音情感识别中也至关重要,其中,语音情感识别模型的分类范例必须能够以尽可能低的计算成本处理高维特征。
[0007]深度学习(DL)的出现提高了研究人员开发出性能更好的语音情感识别模型的效率可能性,这些模型的范围从深度神经网络(DNN)、卷积神经网络(CNN)拓展到基于递归神经网络(RNN)的模型。但是目前这些主流模型存在长距离梯度消失以及长时间序列的信息损失问题,没有较好的运用语音的情感声学特征,尤其是时间序列的特征,这是对于正确识别语音情感是非常重要的特征。
技术实现思路
[0008]为了解决现有技术的不足,本申请提供了一种语音情感识别方法、系统、电子设备及计算机可读存储介质,在Transformer神经网络的基础上,利用长短期记忆网络取代编码器中的位置编码,利用双向长短期记忆网络取代解码器。
[0009]第一方面,本申请提供了一种语音情感识别方法;
[0010]一种语音情感识别方法,包括:
[0011]获取语音信号并进行预处理,对预处理后的语音信号进行声学特征提取,对提取到的声学特征数据进行标准化处理;
[0012]将标准化处理后的声学特征数据输入训练好的语音情感识别模型进行处理并分类,获取语音情感识别结果;其中,语音情感识别模型包括长短期记忆网络、编码器、双向长短期记忆网络和SoftMax分类模块。
[0013]进一步的,所述长短期记忆网络用于对输入的声学特征数据进行位置编码,所述编码器用于对位置编码后的声学特征数据进行加权,所述双向长短期记忆网络用于对加权后的声学特征数据进行迭代解码,所述SoftMax分类模块用于对迭代解码后的声学特征数据的情感进行分类。
[0014]进一步的,所述双向长短期记忆网络由两个长短期记忆网络组成,双向长短期记忆网络中的长短期记忆网络的激活函数表示如下:
[0015][0016]其中,为激活函数,为结合符号的元素级注意力机制,表示标准整流线性单元。
[0017]进一步的,所述编码器的数量为4,4个编码器纵向排列,每个编码器的输入分别与长短期记忆网络连接,每个编码器的输出分别与所述双向长短期记忆网络连接。
[0018]进一步的,所述SoftMax分类模块的公式表示如下:
[0019][0020]其中,S
i
为第i个节点的输出值,c为输出节点的个数。
[0021]进一步的,所述对预处理后的语音信号进行声学特征提取的具体步骤包括:
[0022]对预处理后的语音信号依次进行预加重操作、分帧操作和加窗操作,对加窗后的语音信号进行短时傅里叶变换,得到频谱图;
[0023]将频谱图输入梅尔滤波器,获取对数幅度并对频谱图应用离散余弦变换得到梅尔倒谱系数。
[0024]进一步的,所述对提取到的声学特征数据进行标准化处理的具体步骤为:
[0025]计算提取的梅尔倒谱系数的算数平均数和标准差,对梅尔倒谱系数进行标准化处理,获取标准化梅尔频率倒谱系数。
[0026]第二方面,本申请提供了一种语音情感识别系统;
[0027]一种语音情感识别系统,包括:
[0028]声学特征提取模块,被配置为:获取语音信号并进行预处理,对预处理后的语音信号进行声学特征提取,对提取到的声学特征数据进行标准化处理;
[0029]语音情感识别模块,被配置为:将标准化处理后的声学特征数据输入训练好的语
音情感识别模型进行处理并分类,获取语音情感识别结果;其中,语音情感识别模型包括长短期记忆网络、编码器、双向长短期记忆网络和SoftMax分类模块。
[0030]第三方面,本申请提供了一种电子设备;
[0031]一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述语音情感识别方法的步骤。
[0032]第四方面,本申请提供了一种计算机可读存储介质;
[0033]一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述语音情感识别方法的步骤。
[0034]与现有技术相比,本申请的有益效果是:
[0035]1、本申请提供的技术方案能够解决单纯使用循环神经网络(RNN)、长短期记忆网络(LSTM)或者注意力神经网络中无法充分提取和处理时序特征的问题,将transformer神经网络与BLSTM结合提高语音情感识别的精度。
[0036]2、将transformer神经网络和BLSTM双向长短期记忆网络结合,使用transformer神经网络对BLSTM双向长短期记忆网络在长距离依赖问题上得到提升,使用BLSTM双向长短期记忆网络对transformer神经网络局部信息的获取得到提升。
[0037]3、transformer神经网络的位置编码存在不能很好的表征位置信息的问题,在处理语音问题时,它的位置编码会丢失时间位置的顺序信息,需要在每个时间步重新计算上下文窗口中的整个历史记录。因为LSTM长短期记忆网络对于时间位置的顺序信息有很强的记忆能力,可以长时间记住信息,使用LSTM长短期记忆网络代替transformer神经网络的位置编码,使其位置编码能力获得提本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音情感识别方法,其特征是,包括:获取语音信号并进行预处理,对预处理后的语音信号进行声学特征提取,对提取到的声学特征数据进行标准化处理;将标准化处理后的声学特征数据输入训练好的语音情感识别模型进行处理并分类,获取语音情感识别结果;其中,语音情感识别模型包括长短期记忆网络、编码器、双向长短期记忆网络和SoftMax分类模块。2.如权利要求1所述的语音情感识别方法,其特征是,所述长短期记忆网络用于对输入的声学特征数据进行位置编码,所述编码器用于对位置编码后的声学特征数据进行加权,所述双向长短期记忆网络用于对加权后的声学特征数据进行迭代解码,所述SoftMax分类模块用于对迭代解码后的声学特征数据的情感进行分类。3.如权利要求1所述的语音情感识别方法,其特征是,所述双向长短期记忆网络由两个长短期记忆网络组成,双向长短期记忆网络中的长短期记忆网络的激活函数表示如下:其中,为激活函数,为结合符号的元素级注意力机制,表示标准整流线性单元。4.如权利要求1所述的语音情感识别方法,其特征是,所述编码器的数量为4,4个编码器纵向排列,每个编码器的输入分别与长短期记忆网络连接,每个编码器的输出分别与所述双向长短期记忆网络连接。5.如权利要求1所述的语音情感识别方法,其特征是,所述SoftMax分类模块的公式表示如下:其中,S
i
为第i个节点的输出值,c为输出节点的个数。6.如权利要求1所述的语音情感...
【专利技术属性】
技术研发人员:张鹏,柏绪恒,赵靖,李晔,汪付强,刘祥志,张建强,吴晓明,
申请(专利权)人:齐鲁工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。