当前位置: 首页 > 专利查询>邹采荣专利>正文

一种基于支持向量机的语音情感识别方法技术

技术编号:3045300 阅读:347 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种语音情感识别系统及方法。本发明专利技术采取特征提取分析模块、SVM训练模块和SVM识别模块;训练过程包括特征提取分析、SVM训练;识别过程包括特征提取分析、SVM识别。特征提取分析有全局结构特征参数选择及性别规整、时序结构特征参数选择、性别规整及元音数目规整;支持向量机(SVM)有支持向量机训练、对高兴、生气、悲伤、恐惧、惊讶五种情感进行识别。解决了矢量分割型马氏距离判法、主元分析法、神经网络法、隐马尔可夫法等的各自缺陷。本发明专利技术加强了特征参数的有效性,加入性别规整,用最少支持向量,在错分样本和算法复杂度之间获得最好的语音识别,在单个SVM及多个SVM结合的多模式具有连续输出函数,降低误识率。

【技术实现步骤摘要】

本专利技术涉及一种语音识别方法,特别涉及一种语音情感识别系统及方法。
技术介绍
语音情感自动识别技术主要包括两个问题一是采用语音信号中的何种特征作为情感识别,也就是情感特征提取的问题,一是如何将特定的语音数据进行分类,也就是模式识别的问题。在本专利技术之前,目前主要使用的情感特征是韵律特征及其衍生参数,如持续时间、语速、振幅、基音频率、共振峰等。其中,基音频率和共振峰频率是重要的情感参数,但是由于人和人之间存在的个体差异性(声道的易变性、声道特征、单词发音音调等)目前存在的方法都难以实现基音和共振峰的精确检测,单纯的使用全局基音均值、共振峰均值等常见的衍生参数难以实现较高的情感识别率。并且这些参数主要体现的是人体的声门和声道的特征,因此和人的生理构造有着密切的关系,在不同的个体上显现出较强的相异性。这种差异在不同的性别上尤其明显。在过去的文献中,这些在不考虑情感因素情况下的声学参数性别差异已得到充分的研究,然而针对不同性别下的特征参数在情感状态下的影响,则较少有文献给予专门研究。在已有的各种识别方法中,具体而言,矢量分割型马氏距离判法、主元分析法过于简单,不足于取得好的识别率;神经网络法虽然具有高度的非线性和极强的分类能力,但是随着网络的增大所需学习时间增加很快,另外局部极小问题也是一个不足之处;隐马尔可夫法(HMM)在建立和训练时间上较长,应用于实际还需要解决计算复杂度过高的问题。另外,虽然上述方法在实验环境下有一定的识别率,但主要是根据已有的语音库样本使训练集的性能最优,而实际中环境往往训练集有较大的差异。
技术实现思路
本专利技术的目的就在于上述现有技术的缺陷,设计、研究一种基于支持向量机的全局与时序结构特征相结合的语音情感识别方法。本专利技术的技术方案是,其主要技术步骤为建立特征提取分析模块、SVM训练模块、SVM识别模块;特征提取分析模块包括全局结构特征参数提取、时序结构特征参数提取;首先对原始语音信号预加重、分帧,然后分别进行全局结构特征提取、时序结构特征提取;(1)全局结构特征参数提取(1-1)将原始语音信号经高通滤波器预处理,提取发音持续时间、语速参数;(1-2)分帧,加窗;(1-3)应用短时分析技术,分别提取各帧语句主要特征参数基音频率轨迹、振幅、共振峰频率轨迹;(1-4)提取上述特征参数的衍生参数平均基音频率,最高基音频率、基音频率平均变化率、平均振幅曲线、振幅动态范围、最高第一共振峰频率曲线、第一共振峰平均变化率、最高第二共振峰频率;(2)时序结构特征参数提取(2-1)将原始语音信号分帧后,经由24个等带宽的滤波器组成的美尔标度频率滤波器组滤波,每帧信号以一个能量系数向量表示;(2-2)计算频带能量累积量,用当前帧的美尔标度滤波器组的平均能量与各个美尔标度滤波器的能量做差值,求得所有差值的绝对值的加权和,得到频带能量累积量;Sbec(t)=Σi=124αi|Ei(t)-E‾(t)|]]>(式1)t表示当前帧,Ei(t)为第i个美标度滤波器的能量, E(t)为美尔标度滤波器组的平均能量,αi为第i个滤波器的权重系数;(2-3)根据频带能量累积量峰值来判定元音位置或元音区间,并用简化能量累积量的分布来确定元音的位置,Rec=Σi=124αi|Ei(t)-E‾(t)|=RecLF+RecHF]]>(式2)t表示当前帧,Ei(t)为第i个美标度滤波器的能量, E(t)为美标度滤波器组的平均能量,αi为第i个滤波器的权重系数,RecLF为低频部分(300~1000Hz)对应的Rec值、RecHF为高频部分(1000~3200Hz)对应的Rec值,根据Rec值的分布,利用峰值确定元音的位置,Rec值作为判别元音的标准必须满足两个条件当前语音段必须长于15ms,低频和高频的能量分布必须均衡,即满足下式RecLFRecHF≥0.5]]>(式3)Δt≥15msΔt为当前帧的长度; (2-4)采用短时分析方法,按照性别分别计算情感语句各元音区间的基音轨迹、3个共振峰轨迹、振幅能量轨迹;(2-5)计算情感语句各元音区间的最高基音频率、该基音频率所对应帧的振幅能量、各元音区间的最高振幅能量、该振幅所对应帧的基音频率、各元音区间的持续时间以及前3个共振峰频率;(2-6)采用均值补齐方法规整元音,即选取情感语句中元音个数最多的句子为基准,对于元音个数少的语句在尾部用全句平均值代替、补齐参数向量;将提取的全局结构特征参数、时序结构特征参数规整到相同的空间,得到支持向量机的输入矢量;(3)支持向量机的训练单个支持向量机是一个二分模式的分类器,对SVM的训练是在训练样本中寻找支持向量xi(=1,2,…,n)、支持向量权值系数ai和偏移系数b;SVM的训练步骤(3-1)从情感语句库中选取高兴、生气、悲伤、恐惧、惊讶五种情感语句作为训练样本;(3-2)选择其中一种情感作为识别目标,对于第i条情感语句,抽取其特征参数构成一个特征参数向量,采用符号函数作为判决函数,如果这条语句属于该类情感,则令SVM输出参数yi=1,否则yi=-1;(3-3)利用训练样本的特征参数向量和SVM输出参数作为训练集,核函数是高斯(径向基)函数,采用已有的分解算法对该情感的支持向量机进行训练,得到该训练集的支持向量xi(i=1,2,…,n)、支持向量权值系数ai和偏移系数b;(3-4)高兴、生气、悲伤、恐惧、惊讶五种情感分别训练五个支持向量机;(4)情感识别(4-1)单个情感识别提取待识别语句的特征矢量输入到步骤(3)已训练好的支持向量机中,经输出判别函数(符号函数)对该语句进行判别,如果yj=1则该语句属于该类情感,则该语句为该类情感,否则不属于该类情感;(4-2)多情感识别采用One-Against-All支持向量机对高兴、生气、悲伤、恐惧、惊讶五种情感进行识别,与步骤(3)中建立的五个支持向量机对应,对每一个支持向量机,采用具有连续输出的函数作为软判决函数,将具有最大输出值的类别作为最终的输出;yjk=1Σx∈svαikyik(K(xik,x))+b>1Σx∈svαjkyik(K(xik,x))+b-1≤Σx∈svαikyik(K(xik,x))+b≤1-1Σx∈svαikyik(K(xik,x))+b<-1]]>(式4)j为测试语句的标号,k为不同的情感,K(xik,x)为待识别语句x与第k种情感的第i个支持向量xik的核函数。在计算出每个样本相对于不同情感的判别结果后,识别情感为使(式4)取得最大值的k值。本专利技术的优点和效果在于1.通过对情感语句的特征参数提取与分析,将参数从全局结构特征扩充至时序结构,增加了特征参数的有效性;2.充分考虑了男女性别不同本文档来自技高网...

【技术保护点】
一种基于支持向量机的语音情感识别方法,其步骤为:    建立特征提取分析模块、SVM训练模块、SVM识别模块;特征提取分析模块包括全局结构特征参数提取、时序结构特征参数提取;首先对原始语音信号预加重、分帧,然后分别进行全局结构特征提取、时序结构特征提取;    (1)全局结构特征参数提取:    (1-1)将原始语音信号经高通滤波器预处理,提取发音持续时间、语速参数;    (1-2)分帧,加窗;    (1-3)应用短时分析技术,分别提取各帧语句主要特征参数:基音频率轨迹、振幅、共振峰频率轨迹;    (1-4)提取上述特征参数的衍生参数:平均基音频率,最高基音频率、基音频率平均变化率、平均振幅曲线、振幅动态范围、最高第一共振峰频率曲线、第一共振峰平均变化率、最高第二共振峰频率;    (2)时序结构特征参数提取:    (2-1)将原始语音信号分帧后,经由24个等带宽的滤波器组成的美尔标度频率滤波器组滤波,每帧信号以一个能量系数向量表示;    (2-2)计算频带能量累积量,用当前帧的美尔标度滤波器组的平均能量与各个美尔标度滤波器的能量做差值,求得所有差值的绝对值的加权和,得到频带能量累积量;    Sbec(t)=*α↓[i]|E↓[i](t)-*(t)|  (式1)    t表示当前帧,E↓[i](t)为第i个美标度滤波器的能量,*(t)为美尔标度滤波器组的平均能量,α↓[i]为第i个滤波器的权重系数;    (2-3)根据频带能量累积量峰值来判定元音位置或元音区间,并用简化能量累积量的分布来确定元音的位置,    Rec=*α↓[i]|E↓[i](t)-*(t)|=Rec↓[LF]+Rec↓[HF]  (式2)    t表示当前帧,E↓[i](t)为第i个美标度滤波器的能量,*(t)为美标度滤波器组的平均能量,α↓[i]为第i个滤波器的权重系数,Rec↓[LF]为低频部分(300~1000Hz)对应的Rec值、Rec↓[HF]为高频部分(1000~3200Hz)对应的Rec值,根据Rec值的分布,利用峰值确定元音的位置,Rec值作为判别元音的标准必须满足两个条件:    当前语音段必须长于15ms,低频和高频的能量分布必须均衡,即满足下式    Rec↓[LF]/Rec↓[HF]≥0.5    △t≥15ms  (式3)    △t为当前帧的长度;    (2-4)采用短时分析方法,按照性别分别计算情...

【技术特征摘要】
1.一种基于支持向量机的语音情感识别方法,其步骤为建立特征提取分析模块、SVM训练模块、SVM识别模块;特征提取分析模块包括全局结构特征参数提取、时序结构特征参数提取;首先对原始语音信号预加重、分帧,然后分别进行全局结构特征提取、时序结构特征提取;(1)全局结构特征参数提取(1-1)将原始语音信号经高通滤波器预处理,提取发音持续时间、语速参数;(1-2)分帧,加窗;(1-3)应用短时分析技术,分别提取各帧语句主要特征参数基音频率轨迹、振幅、共振峰频率轨迹;(1-4)提取上述特征参数的衍生参数平均基音频率,最高基音频率、基音频率平均变化率、平均振幅曲线、振幅动态范围、最高第一共振峰频率曲线、第一共振峰平均变化率、最高第二共振峰频率;(2)时序结构特征参数提取(2-1)将原始语音信号分帧后,经由24个等带宽的滤波器组成的美尔标度频率滤波器组滤波,每帧信号以一个能量系数向量表示;(2-2)计算频带能量累积量,用当前帧的美尔标度滤波器组的平均能量与各个美尔标度滤波器的能量做差值,求得所有差值的绝对值的加权和,得到频带能量累积量;Sbec(t)=Σi=124αi|Ei(t)-E‾(t)|]]>(式1)t表示当前帧,Ei(t)为第i个美标度滤波器的能量, E(t)为美尔标度滤波器组的平均能量,αi为第i个滤波器的权重系数;(2-3)根据频带能量累积量峰值来判定元音位置或元音区间,并用简化能量累积量的分布来确定元音的位置,Rec=Σi=124αi|Ei(t)-E‾(t)|=RecLF+RecHF]]>(式2)t表示当前帧,Ei(t)为第i个美标度滤波器的能量, E(t)为美标度滤波器组的平均能量,αi为第i个滤波器的权重系数,RecLF为低频部分(300~1000Hz)对应的Rec值、RecHF为高频部分(1000~3200Hz)对应的Rec值,根据Rec值的分布,利用峰值确定元音的位置,Rec值作为判别元音的标准必须满足两个条件当前语音段必须长于15ms,低频和高频的能量分布必须均衡,即满足下式RecLFRecHF≥0.5]]>Δt≥15ms (式3)Δt为当前帧的长度;(2-4)采用短时分析方法,按照性别分别计算情感语句各元音区间的基音轨迹、3个共振峰轨迹、振幅能量轨迹;(2-5)计算情感语句各元音区间的最高基音频率、该基音频率所对应帧的振幅能量、各元音区间的最高振幅能量、该振幅所对应帧的基音频率、各元音区间的持续时间以及前3个共振峰频率;(2-6)采用均值补齐方法规整元音,即选取情感语句中元音个数最多的句子为基准,对于元音个数少的语句在尾部用全句平均值代替、补齐参数向量;将提...

【专利技术属性】
技术研发人员:赵力王治平赵艳郑文明
申请(专利权)人:邹采荣
类型:发明
国别省市:84[中国|南京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利