一种基于变分模态分解和极限学习机的语音情感识别方法技术

技术编号:19062272 阅读:1092 留言:0更新日期:2018-09-29 13:16
本发明专利技术公开了一种基于变分模态分解和极限学习机的语音情感识别方法,属于人工智能和语音识别领域,本发明专利技术首先通过变分模态分解方法对情感语音信号进行预处理,分解成若干个本征模态函数(IMF)分量和一个残差分量,这些分量更能准确反映原序列的变化,并保留语音信号的情感特征;然后通过对每个IMF分量进行hilbert变换,得到各IMF分量的hilbert边际谱特征;另外,将各IMF分量重新聚合,得到去除残差分量的语音信号,再对该信号提取MEL倒谱函数。将提取的新特征加入到传统语音情感特征集中,构建极限学习机模型进行分类识别。本发明专利技术的优点在于通过变分模态分解得到新的语音特征,相较于传统语音情感特征,该特征在进行语音情感识别时有更高的识别率。

【技术实现步骤摘要】
一种基于变分模态分解和极限学习机的语音情感识别方法
本专利技术涉及人工智能和语音识别领域,特别是一种基于变分模态分解和极限学习机的语音情感识别方法。
技术介绍
在多种通信方式中,语音信号是人与人、人与机器通信最快的自然方法。人类甚至可以从语音交流中感觉到说话人的情绪状态。语音情感是分析声音行为的一种方法,是指各种影响(如情绪、情绪和压力)的指针,侧重于语音的非言语方面。在这种情况下,语音情感识别(SER)的主要挑战是提取一些客观的、可测量的语音特征参数,这些参数可以反映说话人的情绪状态。近年来,语音情感识别在人机通信、机器人通信、多媒体检索等领域得到了广泛关注。语音情感识别研究主要是利用语音中的情感和语音特征的统计特性,进行一般定性的声学关联。大多数的语音情感识别系统都能对语音信号进行特征提取,并在不同的数据库中实现70%~90%的识别率。VerveridisD等人从能量、基音和语音频谱的动态行为中提取出87个静态特征,并提出了谱平坦度测度与谱中心(RSS)的比值作为说话人独立的特征,利用RSS特征、基音周期、能量和MEL倒谱系数对性别和情感进行了层次分类。SunR,MooreE等人将Teager能量中提取的小波系数引入到语音情感识别中。NweTL等人将MFCC(MEL倒谱系数)参数作为特征对语音情感进行识别,也取得了较好的结果。HeL等人首先将EMD分解引入到语音情感识别中。SethuV等人利用EMD将语音进行分解,以分解得到的IMF分量进行语音分类。ShahnazC等人将EMD和小波分析相结合得到了80.55%的语音情感识别准确率。2014年D.K,Z.D等人在EMD的基础上提出的VMD算法,有效消除了EMD算法分解出的IMF信号缺少物理意义和计算量过大的缺点。现有语音情感特征在进行分类识别时还存在性能不佳的问题。
技术实现思路
本专利技术所要解决的技术问题是克服现有技术的不足而提供一种基于变分模态分解和极限学习机的语音情感识别方法,对情感语音信号进行平稳化处理,结合Hilbert变换和MEL倒谱系数提取得到VMD-HT和VMD-MFCC特征,通过极限学习机模型进行语音情感分类,以提高语音情感的分类准确率。本专利技术为解决上述技术问题采用以下技术方案:根据本专利技术提出的一种基于变分模态分解和极限学习机的语音情感识别方法,包括以下步骤:步骤1、将输入的语音情感信号通过变分模态分解算法进行模态分解,得到本征模态函数IMF分量和残差分量;步骤2、对步骤1的各分量进行Hlibert变换,得到各IMF分量的Hilbert谱,将各IMF分量的平均瞬时频率、幅值以及原始信号的瞬时频率作为该语音情感信号的VMD-HT特征;步骤3、采用步骤1的各IMF分量进行重新聚合,对聚合信号提取MFCC参数,即得到VMD-MFCC特征;步骤4、将步骤2和步骤3的特征加入到现有的语音特征集中,通过极限学习机分类模型对整个语音特征集进行分类识别,得到语音情感数据集分类结果。作为本专利技术所述的一种基于变分模态分解和极限学习机的语音情感识别方法进一步优化方案,步骤1中得到K个本征模态函数IMF分量和一个残差分量;具体如下:第k个IMF分量表达式为其中,uk(t)为第k个IMF分量,0<k<K+1,Ak(t)为第k个IMF分量的幅值,为第k个IMF分量的相角,t为时间;约束条件为式(2)中{uk}:={u1,...,uK},uk(t)记为uk,{uk}为分解到的K个有限带宽的IMF分量的集合,uk表示分解到的第k个有限带宽的IMF分量,为微分算子,δ(t)为狄利克来函数,j为虚数符号,e为自然常数,f(t)为约束函数,{ωk}:={ω1,...,ωK},{ωk}为K个IMF分量所对应的中心频率的集合,ωk表示第k个IMF分量所对应的中心频率,表示范数;通过拉格朗日函数求该约束条件下的最优解,生成的拉格朗日表达式为:式(3)中,L({uk},{ωk},λ)为拉格朗日函数,α为惩罚系数,λ(t)为拉格朗日乘子,<·>表示内积;采用乘法算子交替的方法求式(3)的鞍点,就得到IMF分量,求解过程中的值会不断更新,直到与的误差小于预设值;为第n+1次迭代的第k个IMF分量,其表达式为式(4)中,X为uk的集合,为第n+1次迭代的第k个IMF分量的中心频率,表示将第n+1次迭代的除了第k个IMF分量之外的分量进行求和,ui(t)n+1为第n+1次迭代时的第i个IMF分量。作为本专利技术所述的一种基于变分模态分解和极限学习机的语音情感识别方法进一步优化方案,K设置为4。作为本专利技术所述的一种基于变分模态分解和极限学习机的语音情感识别方法进一步优化方案,步骤3的MFCC参数提取前12维。作为本专利技术所述的一种基于变分模态分解和极限学习机的语音情感识别方法进一步优化方案,步骤4的极限学习机分类模型采用sigmod函数作为代价函数。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:(1)本专利技术针对情感语音信号的非线性、非平稳特性,利用极限学习机算法在处理非线性问题中的优越性和变分模态分解算法在处理非平稳信号中的优势,基于变分模态分解和极限学习机的语音情感分类方法,根据情感语音信号的非线性、非平稳特性,首先利用变分模态分解技术对语音信号进行模态分解,结合Hilbert变换和MEL倒谱系数提取分别得到VMD-HT和VMD-MFCC特征,再利用极限学习机分类技术进行语音情感分类;相较于传统语音情感特征和分类识别算法,基于VMD提取的特征和极限学习机的语音情感分类方法有着更好的综合性能;(2)本专利技术的优点在于通过变分模态分解得到新的语音特征,相较于传统语音情感特征,该特征在进行语音情感识别时有更高的识别率。附图说明图1是基于变分模态分解和极限学习机的语音情感分类识别方法的流程图。图2是VMD-HT特征提取流程图。图3是各IMF分量边际谱图;其中,(a)为IMF1,(b)为IMF2,(c)为IMF3,(d)为IMF4。图4是VMD-MFCC特征提取流程图。图5是FEAR语句12阶VMD-MFCC参数。图6是基本ELM的体系结构图。图7是本专利技术的流程图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本专利技术进行详细描述。本实施例采用两种语音情感数据集(EMODB、RAVDESS)中共有的生气,伤心,害怕,开心,中性五种情感各50个语句。其中,随机抽取40句用来做训练,10句用来测试,进行10次实验,实验结果以10次实验识别率的平均值作为评估指标。将变分模态分解(VariationalModeDecomposition,VMD)算法和极限学习机(ExtremeLearningMachine,ELM)分类算法相结合进行语音情感分类识别。基于变分模态分解和极限学习机的语音情感分类识别方法的流程图,如图1所示、图7所示。将输入的情感语音数据,通过变分模态分解算法进行模态分解,得到4个本征模态函数分量(IntrinsicModeFunction,IMF)和一个残差分量,K取4;第k个IMF分量表达式为其中,uk(t)为第k个IMF分量,0<k<K+1,Ak(t)为第k个IMF分量的幅值,为第k个IMF分量的相角,t为时间;本文档来自技高网
...

【技术保护点】
1.一种基于变分模态分解和极限学习机的语音情感识别方法,其特征在于,包括以下步骤:步骤1、将输入的语音情感信号通过变分模态分解算法进行模态分解,得到本征模态函数IMF分量和残差分量;步骤2、对步骤1的各分量进行Hlibert变换,得到各IMF分量的Hilbert谱,将各IMF分量的平均瞬时频率、幅值以及原始信号的瞬时频率作为该语音情感信号的VMD‑HT特征;步骤3、采用步骤1的各IMF分量进行重新聚合,对聚合信号提取MFCC参数,即得到VMD‑MFCC特征;步骤4、将步骤2和步骤3的特征加入到现有的语音特征集中,通过极限学习机分类模型对整个语音特征集进行分类识别,得到语音情感数据集分类结果。

【技术特征摘要】
1.一种基于变分模态分解和极限学习机的语音情感识别方法,其特征在于,包括以下步骤:步骤1、将输入的语音情感信号通过变分模态分解算法进行模态分解,得到本征模态函数IMF分量和残差分量;步骤2、对步骤1的各分量进行Hlibert变换,得到各IMF分量的Hilbert谱,将各IMF分量的平均瞬时频率、幅值以及原始信号的瞬时频率作为该语音情感信号的VMD-HT特征;步骤3、采用步骤1的各IMF分量进行重新聚合,对聚合信号提取MFCC参数,即得到VMD-MFCC特征;步骤4、将步骤2和步骤3的特征加入到现有的语音特征集中,通过极限学习机分类模型对整个语音特征集进行分类识别,得到语音情感数据集分类结果。2.根据权利要求1所述的一种基于变分模态分解和极限学习机的语音情感识别方法,其特征在于,步骤1中得到K个本征模态函数IMF分量和一个残差分量;具体如下:第k个IMF分量表达式为其中,uk(t)为第k个IMF分量,0<k<K+1,Ak(t)为第k个IMF分量的幅值,为第k个IMF分量的相角,t为时间;约束条件为式(2)中{uk}:={u1,...,uK},uk(t)记为uk,{uk}为分解到的K个有限带宽的IMF分量的集合,uk表示分解到的第k个有限带宽的IMF分量,为微分算子,δ(t)为狄利克来函数...

【专利技术属性】
技术研发人员:张秀再王玮蔚赵慧
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1