基于HMM/SOFMNN混合模型的语音情感识别方法技术

技术编号:8241781 阅读:270 留言:0更新日期:2013-01-24 22:43
本发明专利技术涉及一种基于HMM/SOFMNN混合模型的语音情感识别方法,该方法将HMM和SOFMNN模型相结合对语音情感进行识别,其具体包括以下步骤:1)建立情感语音数据库;2)进行语音信号预处理:包括预加重处理、去噪和分帧加窗;3)语音情感特征提取:包括提取语音信号的时间、能量、振幅、基频和共振峰;4)利用HMM/SOFMNN混合模型训练与识别。与现有技术相比,本发明专利技术克服了HMM本身难以解决的模式类别间的相互重叠问题,而且弥补了SOFMNN在获取时序信息方面的不足,提高了语音情感识别率。

【技术实现步骤摘要】

本专利技术涉及一种语音情感识别方法,尤其是涉及一种基于HMM/S0FMNN混合模型的语音情感识别方法。
技术介绍
人的语音信号中包含着丰富的情感信息,通过对语音信号的分析来识别人的情感是当前一个十分活跃的研究课题。语音情感识别就是从语音信号中识别出说话人的情感信息,比如“喜、怒、哀、乐”等。语音情感识别在自然人机交互、安全系统自动监管等方面有着广泛的应用前景。语音情感识别是一个模式识别问题,大部分模式识别和分类方法都被尝试用于语音中情感的自动识别。隐马尔可夫模型(HMM)作为语音信号的一种较为理想的统计模型,已经在语音处理领域获得了广泛的应用,并逐渐被应用到语音情感识别领域。隐马尔可夫过程是一种双重随机过程,人的言语过程实际上就是这样一种双重随机过程。HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型。但HMM方法有需要语音信号的先验统计知识,分类决策能力较弱等缺点,由于仅考虑了特征的类内变化,而忽略了类间重叠性,仅根据各累积概率的最大值作类别判断,而忽略了各个模式之间的相似特性,因而影响了系统的识别性能,其自适应能力、鲁棒性都不理相因此要进一步提高语音情感识别率,就要对HMM模型进行改进。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种克服了 HMM本身难以解决的模式类别间的相互重叠问题,而且弥补了 S0FMNN(自组织特征映射神经网络)在获取时序信息方面的不足,提高了语音情感识别率的基于HMM/S0FMNN混合模型的语音情感识别方法。本专利技术的目的可以通过以下技术方案来实现一种基于HMM/S0FMNN混合模型的语音情感识别方法,其特征在于,该方法将HMM和SOFMNN模型相结合对语音情感进行识别,其具体包括以下步骤I)建立情感语音数据库;2)进行语音信号预处理包括预加重处理、去噪和分帧加窗;3)语音情感特征提取包括提取语音信号的时间、能量、振幅、基频和共振峰; 4)利用HMM/S0FMNN混合模型训练与识别。所述的步骤I)建立情感语音数据库具体为,首先邀请实验者参加录音,其中包括高兴,伤心,生气,害怕,惊讶五类情感,组成录制情感语音数据库;然后从影视剪辑中选取典型的情感语音片段,其中包括高兴,伤心,生气,害怕和惊讶五类情感语料,组成剪辑情感语音数据库,最终将这两种情感语音数据库综合起来,完成情感语音数据库的建立。所述的步骤2)进行语音信号预处理具体为,通过具有6db/oct梯度的高频增强型滤波器,利用Z变换,用一阶数字滤波器来对语音信号进行预加重处理,经过去噪以及分帧之后的语音信号为s(n) = O,…,N-1,那么乘上窗长N = 23. 22ms (256点)的汉明窗后就变成s' (n) = s(n)*w(n)"(Οπη、w (η)定义如下权利要求1.一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,该方法将HMM和SOFMNN模型相结合对语音情感进行识别,其具体包括以下步骤 . 1)建立情感语音数据库; . 2)进行语音信号预处理包括预加重处理、去噪和分帧加窗; . 3)语音情感特征提取包括提取语音信号的时间、能量、振幅、基频和共振峰; . 4)利用HMM/S0FMNN混合模型训练与识别。2.根据权利要求I所述的一种基于HMM/S0FMNN混合模型的语音情感识别方法,其特征在于,所述的步骤I)建立情感语音数据库具体为,首先邀请实验者参加录音,其中包括高兴,伤心,生气,害怕,惊讶五类情感,组成录制情感语音数据库;然后从影视剪辑中选取典型的情感语音片段,其中包括高兴,伤心,生气,害怕和惊讶五类情感语料,组成剪辑情感语音数据库,最终将这两种情感语音数据库综合起来,完成情感语音数据库的建立。3.根据权利要求I所述的一种基于HMM/S0FMNN混合模型的语音情感识别方法,其特征在于,所述的步骤2)进行语音信号预处理具体为,通过具有6db/oct梯度的高频增强型滤波器,利用Z变换,用一阶数字滤波器来对语音信号进行预加重处理,经过去噪以及分帧之后的语音信号为s(n) = O,…,N-1,那么乘上窗长N = 23. 22ms (256点)的汉明窗后就变成s' (n) = s (n) *w (n)4.根据权利要求I所述的一种基于HMM/S0FMNN混合模型的语音情感识别方法,其特征在于,所述的步骤3)语音情感特征提取具体包括 A)、时间参数 提取短时过零率,即一帧语音中语音信号波形穿过横轴的次数; 提取语速,即应用基于频带方差的端点检测算法,检测有声帧与无声帧,以无声部分时间t与发音持续时间T的比值来计算出无声部分时间比率P = t/T,从而衡量语音信号的语速; B)、基音频率包括平均基音频率、基频变化范围和基音频率的平均变化率; 采用窗长23. 22ms (256点),窗移IOms的汉明窗,截止频率为900Hz的低通滤波器,采用自相关分析法来对每一帧进行基音周期估计,然后对基频进行中值滤波和线性平滑处理,求出情感语音信号的平滑的基频轨迹曲线,分析不同情感信号基频轨迹的变化情况,找出不同情感的基频构造特征; C)、能量参数即短时平均能量; 首先求出语音信号各样本点值的平方,然后样本点通过滤波器输出由短时能量构成的时间序列,采用窗长N = 23. 22ms (256点)的汉明窗,在满足对语音振幅瞬间变化的细节进行了有效平滑的前提下,保证了短时能量的明显变化; D)、振幅参数包括短时平均振幅和振幅平均变化率; 首先选择一帧语音,计算该帧语音取样值的绝对值的和,得到该帧语音的平均振幅,对整段语音的各个分帧分别计算平均振幅,便可以得到整段语音的短时平均振幅序列; E)、共振峰参数包括共振峰频率的平均值、共振峰频率的平均变化率和前三个共振峰频率; 首先用线性预测法求出预测系数,然后用预测系数估计出声道的频响曲线,再用峰值检出法计算出各共振峰的频率。5.根据权利要求4所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,所述的步骤B)中的采用自相关分析法来对每一帧进行基音周期估计具体包括以下步骤 a)用900Hz低通滤波器对一帧语音信号X(n)进行滤波,并去掉开头20个输出值不用(置 0),得到 X' (n); b)分别求X'(n)的前部90个样点和后部90个样点的最大幅度,并取其中较小的一个,乘以因子O. 68作为门限电平Q ; c)对X'(η)分别进行中心削波和三电平削波,即6.根据权利要求1所述的一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,所述的步骤4)利用HMM/SOFMNN混合模型训练与识别具体包括以下步骤 41)HMM状态分割 根据HMM模型,对于每一种情感类别,首先建立对应的隐马尔可夫模型λ = (π,Α,B),状态分割采用Viterbi算法,Viterbi译码器用于生成最佳的状态序列,在训练时,每个样本的最佳状态序列由各种情感的HMM模型产生,识别时,先求出样本通过不同的HMM的观察概率,然后求出各个模型对应的规整的特征向量,选择前三个最大输出似然概率对应的HMM规整特征向量与上述这三类的中心矢量距离最短的特征向量作为输入SOFMNN本文档来自技高网...

【技术保护点】
一种基于HMM/SOFMNN混合模型的语音情感识别方法,其特征在于,该方法将HMM和SOFMNN模型相结合对语音情感进行识别,其具体包括以下步骤:1)建立情感语音数据库;2)进行语音信号预处理:包括预加重处理、去噪和分帧加窗;3)语音情感特征提取:包括提取语音信号的时间、能量、振幅、基频和共振峰;4)利用HMM/SOFMNN混合模型训练与识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:高珏孙柏林施建刚孙弘刚袁健陈开佘俊许华虎何永义
申请(专利权)人:上海上大海润信息系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1