一种基于卷积神经网络的语音情感识别方法及系统技术方案

技术编号:19595621 阅读:22 留言:0更新日期:2018-11-28 05:39
本发明专利技术提出了一种基于卷积神经网络的语音情感识别方法及系统。所述方法先对获取的语音信号进行预处理,再利用语谱图以时频域形式将语音信号进行显示,随后利用卷积神经网络进行特征提取,提取过程主要分为卷积过程,再进行池化过程,可根据实际信号特点和特征提取需求多次卷积与池化,得到特征图之后再用分类器进行情感特征分类,输出语音情感识别结果,本发明专利技术方法既可以保持情感特征提取的准确性,也可以保证系统识别的实时性。

【技术实现步骤摘要】
一种基于卷积神经网络的语音情感识别方法及系统
本专利技术涉及语音情感识别领域,尤其涉及到一种基于卷积神经网络的语音情感识别方法及系统。
技术介绍
自然和谐的人机交互中,机器应该能理解人的情感和意图,对不同人、不同环境、不同任务都能给予不同的反馈,那么机器如果能拥有像人与人一样可以方便与人自然交流的“能力”,就必须要解决如何更好理解交流中的情感问题,而这正是“情感智能(EmotionalIntelligence)”所需要解决的,情感智能可以理解为情感的准确识别和反馈能力。目前,应用于人类情感识别研究的检测信息包括语音、面部表情、生理信号、肢体语言等。语音信号是人与人之间沟通最快且最自然的方法,语音情感识别研究对促进和谐人机交互意义重大。语音情感由一些语音参数表征,然而这些特征参数内在的复杂性决定了情感特征提取的困难。国内外研究者们从语音学和也理学方面对情感特征进行了大量的研究。一般提取的情感特征主要分为韵律特征、音质特征和谱特征。韵律特征被认为是主要的语音情感参数,反映的是"唤醒度"信息。人类语言的时常、语调、轻重各不相同,这些韵律特征的变化构成了美妙的语言。常见韵律特征有基频、时长、能量等,韵律特征的统计特征分析着眼于整体语音,反映出一段时间之上韵律参数的变化规律。在Basque情感数据上,Luengo等人研究发现能量的平均值、方差、能量对数和基频对数的动态变化范围、基频均值和对数斜交共6个特征是最具有情感区分能力的特征。Origlia等人提取基频和能量相关的共31维韵律特征在多个语音情感数据库上取得了很好的识别率。而Ilion使用35个韵律特征在berlin库上取得了51%的识别率。目前国内很多研究人员进行了语音情感识别领域的研究。研究人员基于传统的基频、共振峰、MFCC(Mel-FrequencyCepstralCoefficients)等特征构建了一系列的人工特征。提取这些人工特征以及它们的统计特征,构成一个情感特征集,应用特征PCA(PrincipalComponentAnalysis)、LDA(LinearDiscriminantAnalysis)等特征选择方法对特征集进行选择和降维,得到与情感相关性较高的语音情感特征子集,采用支持向量机、BP神经网络等对特征子集进行分类得到语音情感。传统的情感识别方案通常是从语音信号这些原始数据中提取语音特征。这类语音特征是人工设计的,这类特征存在以下缺点:(1)人工设计特征的过程非常复杂,并且十分依赖工程经验;(2)人工选择的特征通常仅针对特定数据有效,不能适应待处理数据特征的变化;(3)人工设计的特征表达能力有限,不能精确描述数据中隐含的复杂特征和抽象特征,存在一定的偏差;(4)人工设计的特征提取器无法提取目标的所有特征,这一非完备性会造成特征鉴别能力的大幅下降。相比传统机器学习算法设计难度和使用难度,深度学习在特征提取方面具有明显的优势。深度学习相关的特征选择算法可以从随机初始化的特征中,根据损失函数自动调整特征参数,实现特征学习。同时,根据特征在测试集中的重要程度自动调整特征权重,完成特征选择,从而最终学习并选择出最能代表数据本质特征的特征模式,提高系统对于数据的鉴别力。
技术实现思路
本专利技术针对传统的人工设计的语音特征的缺陷,提出了一种基于卷积神经网络的语音情感识别方法及系统,所述方法包含以下步骤:S1、获取输入的语音信号x(t),并对所述语音信号x(t)进行预处理,获得预处理后的语音信号x′d(n);S2、将预处理后的语音信号x′d(n)进行语谱图绘制,获得以频域信号Xd(k)显示的语谱图;S3、构建卷积神经网络模型,对S2输出的以频域信号Xd(k)显示的语谱图进行特征提取,获得语音信号特征图;S4、构建分类器SVM模型,所述分类器SVM模型包含K个SVM二分类器,SVM二分类器的模型表达式为其中K为预设的情感类别数量,C>0,C是惩罚系数,ω和b是超平面的参数,ωxi+b表示语音信号特征图中样本点xi到超平面距离,即分类间隔;yi为语音样本的情感标签。S5、利用所述构建的分类器SVM模型对步骤S3得到的语音信号特征图进行识别,输出情感特征分类结果既当分类间隔ωxk+b最大值时,获得的分类器编号k,从而获得第k个分类器对应的语音情感。在本专利技术的一种基于卷积神经网络的语音情感识别方法中,步骤S1包含以下步骤:S11、将获取的语音信号x(t)进行采样和量化,以完成语音信号的采样和AD转换;S12、将采样和量化后的语音信号采用一阶FIR高通数字滤波器进行预加重处理,获得预加重后的语音信号x(m);S13、根据表达式将预加重后的语音信号进行分帧加窗处理;其中,x(m)为预加重后的语音信号,x′d(n)为分帧加窗后的语音信号,ω(n)是窗函数,N为窗宽,在本专利技术的一种基于卷积神经网络的语音情感识别方法中,步骤S2包含以下步骤:S21、应用傅里叶变换k=0,1,...,N-1对预处理后的语音信号x′d(n)进行变换,得到语音信号x′d(n)的频域信号Xd(k),其中,d表示第d帧语音信号,N表示信号每一帧的长度,Xd(k)表示傅里叶变换后的语音频域信号;S22、根据公式L=20log10(|Xd(k)|)计算傅里叶变换后的语音频域信号Xd(k)的幅值,并对所述幅值进行归一化处理,将信号幅值绘制成语谱图。在本专利技术的一种基于卷积神经网络的语音情感识别方法中,步骤S3包含以下步骤:S30、语谱图矩阵获取:根据S2得到的语谱图中一帧信号的幅值构成一个向量,多帧信号的幅值向量组成一个幅值矩阵,将所述幅值矩阵中的各个元素线性映射到[0,1]内,所述元素值构成了语谱图矩阵I;S31、卷积层处理:将语谱图矩阵I与卷积核进行运算,得到卷积层对应的特征图;卷积过程为其中I为语谱图矩阵,K表示卷积核,M和N表示卷积核的宽度和高度;S32、池化层处理:将卷积层对应的特征图作为池化层的输入,采用最大池化方法经过池化操作后产生一个对应的池化层的特征图;S33、全连接层处理:对卷积层和池化层输出的特征图进行映射,实现非线性变换,获得语音信号特征图。在本专利技术的一种基于卷积神经网络的语音情感识别方法中,步骤S4中构建分类器SVM模型中的语音样本点情感标签函数具体为:对于第k个SVM分类器,将语音样本点的情感标签yi设置为1,其余语音样本点的情感标签yi设置为-1,从而将每个二类分类器属于第k类的语音样本点从其他类中分离出来。本专利技术还提供了一种基于卷积神经网络的语音情感识别系统,包含以下模块:语音预处理模块,用于获取输入的语音信号x(t),并对所述语音信号x(t)进行预处理,获得预处理后的语音信号x′d(n);语谱图获取模块,用于将预处理后的语音信号x′d(n)进行语谱图绘制,获得以频域信号Xd(k)显示的语谱图;卷积神经网络处理模块,用于构建卷积神经网络模型,对语谱图获取模块输出的以频域信号Xd(k)显示的语谱图进行特征提取,获得语音信号特征图;分类器构建模块,用于构建分类器SVM模型,所述分类器SVM模型包含K个SVM二分类器,SVM二分类器的模型表达式为其中K为预设的情感类别数量,C>0,C是惩罚系数,ω和b是超平面的参数,ωxi+b表示数据点xi到超本文档来自技高网
...

【技术保护点】
1.一种基于卷积神经网络的语音情感识别方法,其特征在于,包含以下步骤:S1、获取输入的语音信号x(t),并对所述语音信号x(t)进行预处理,获得预处理后的语音信号x′d(n);S2、将预处理后的语音信号x′d(n)进行语谱图绘制,获得以频域信号Xd(k)显示的语谱图;S3、构建卷积神经网络模型,对S2输出的以频域信号Xd(k)显示的语谱图进行特征提取,获得语音信号特征图;S4、构建分类器SVM模型,所述分类器SVM模型包含K个SVM二分类器,SVM二分类器的模型表达式为

【技术特征摘要】
1.一种基于卷积神经网络的语音情感识别方法,其特征在于,包含以下步骤:S1、获取输入的语音信号x(t),并对所述语音信号x(t)进行预处理,获得预处理后的语音信号x′d(n);S2、将预处理后的语音信号x′d(n)进行语谱图绘制,获得以频域信号Xd(k)显示的语谱图;S3、构建卷积神经网络模型,对S2输出的以频域信号Xd(k)显示的语谱图进行特征提取,获得语音信号特征图;S4、构建分类器SVM模型,所述分类器SVM模型包含K个SVM二分类器,SVM二分类器的模型表达式为其中K为预设的情感类别数量,C>0,C是惩罚系数,ω和b是超平面的参数,ωxi+b表示语音信号特征图中样本点xi到超平面距离,即分类间隔;yi为语音样本点情感标签函数;S5、利用所述构建的分类器SVM模型对步骤S3得到的语音信号特征图进行识别,输出情感特征分类结果既当分类间隔ωxk+b最大值时,获得的分类器编号k,从而获得第k个分类器对应的语音情感。2.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法,其特征在于,步骤S1包含以下步骤:S11、将获取的语音信号x(t)进行采样和量化,以完成语音信号的采样和AD转换;S12、将采样和量化后的语音信号采用一阶FIR高通数字滤波器进行预加重处理,获得预加重后的语音信号x(m);S13、根据表达式将预加重后的语音信号进行分帧加窗处理;其中,x(m)为预加重后的语音信号,x′d(n)为分帧加窗后的语音信号,ω(n)是窗函数,N为窗宽。3.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法,其特征在于,步骤S2包含以下步骤:S21、应用傅里叶变换k=0,1,...,N-1对预处理后的语音信号x′d(n)进行变换,得到语音信号x′d(n)的频域信号Xd(k),其中,d表示第d帧语音信号,N表示信号每一帧的长度,Xd(k)表示傅里叶变换后的语音频域信号;S22、根据公式L=20log10(|Xd(k)|)计算傅里叶变换后的语音频域信号Xd(k)的幅值,并对所述幅值进行归一化处理,将信号幅值绘制成语谱图。4.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法,其特征在于,步骤S3包含以下步骤:S30、语谱图矩阵获取:根据S2得到的语谱图中一帧信号的幅值构成一个向量,多帧信号的幅值向量组成一个幅值矩阵,将所述幅值矩阵中的各个元素线性映射到[0,1]内,所述元素值构成了语谱图矩阵I;S31、卷积层处理:将语谱图矩阵I与卷积核进行运算,得到卷积层对应的特征图;卷积过程为其中I为语谱图矩阵,K表示卷积核,M和N表示卷积核的宽度和高度;S32、池化层处理:将卷积层对应的特征图作为池化层的输入,采用最大池化方法经过池化操作后产生一个对应的池化层的特征图;S33、全连接层处理:对卷积层和池化层输出的特征图进行映射,实现非线性变换,获得语音信号特征图。5.根据权利要求1所述一种基于卷积神经网络的语音情感识别方法,其特征在于,步骤S4中构建分类器SVM模型中的语音样本点情感标签函数具体为:对于第k个SVM分类器,将语音样本点的情感标签yi设置为1,其余语音样本点的情感标签yi设置为-1,从而将每个二类分类器属于第k类的语音样本点从其他类中分离出来。6.一种基于卷积神经网络的语音情感识别系统,其特征在于,包含以下模块:语音预处理模块,用于获取输入的语音信号x(t...

【专利技术属性】
技术研发人员:刘振焘曹卫华吴敏徐建平胡旭晨毛俊伟
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1