【技术实现步骤摘要】
一种基于多级残差卷积神经网络的语音情感识别方法
本专利技术属于语音信号分析和图像处理等
,涉及一种基于多级残差卷积神经网络的语音情感识别方法。
技术介绍
随着深度学习技术的发展,语音情感识别技术与深度学习技术相结合的研究越来越多,以卷积神经网络(CNN)作为识别模型是研究重点之一。CNN的卷积核能够提取不同层级的特征,且能够完成特征提取、模型识别的全部流程,从而省略繁琐复杂的手工特征工程过程。但是CNN模型存在随着卷积层的加深,原始信号的特征逐渐丢失,从而导致识别率下降的问题。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于多级残差卷积神经网络的语音情感识别方法,针对CNN随着卷积层加深而出现的特征丢失的问题,通过跨越多级的残差块对CNN进行特征弥补,从而提高识别率。为达到上述目的,本专利技术提供如下技术方案:一种基于多级残差卷积神经网络的语音情感识别方法,包括以下步骤:1)训练过程:S11:收集并预处理带所有情感的声音信号,生成语谱图;S12:构建 ...
【技术保护点】
1.一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,该方法包括以下步骤:/n1)训练过程:/nS11:收集并预处理带所有情感的声音信号,生成语谱图;/nS12:构建多级残差卷积神经网络,并将语谱图输入到多级残差卷积神经网络进行训练;/n2)测试过程:/nS21:获取并预处理待识别声音信号,生成待识别语谱图;/nS22:将待识别语谱图输入到训练好的多级残差卷积神经网络,得到识别结果。/n
【技术特征摘要】
1.一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,该方法包括以下步骤:
1)训练过程:
S11:收集并预处理带所有情感的声音信号,生成语谱图;
S12:构建多级残差卷积神经网络,并将语谱图输入到多级残差卷积神经网络进行训练;
2)测试过程:
S21:获取并预处理待识别声音信号,生成待识别语谱图;
S22:将待识别语谱图输入到训练好的多级残差卷积神经网络,得到识别结果。
2.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S12或S23中,生成语谱图具体包括:声音信号经过预加重、分帧、加窗、短时傅里叶变换最终变成语谱图。
3.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在于,所述步骤S12中,构建多级残差卷积神经网络具体包括以下步骤:
S121:常将输入的语谱图转换成3个像素点矩阵;
S122:多级残差卷积神经网络的每个卷积层通过卷积核对矩阵进行遍历,得出一个卷积结果,即特征图,卷积层再经过池化层降低特征维度继续作为下一个卷积层的输入信息;然后利用多级残差结构跨越多个卷积层将原始特征信息引入到后续卷积层实现特征补充,重复此步骤;
S23:卷积的最后结果以一维矩阵的方式输入到全连接层,全连接层对卷积结果再进行特征学习,并通过softmax进行相对概率转换,得出最终分类结果。
4.根据权利要求1所述的一种基于多级残差卷积神经网络的语音情感识别方法,其特征在...
【专利技术属性】
技术研发人员:郑凯,夏志广,张毅,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。