一种基于支持向量机的语音情感识别方法技术

技术编号：3045300 阅读：347 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种语音情感识别系统及方法。本发明专利技术采取特征提取分析模块、ＳＶＭ训练模块和ＳＶＭ识别模块；训练过程包括特征提取分析、ＳＶＭ训练；识别过程包括特征提取分析、ＳＶＭ识别。特征提取分析有全局结构特征参数选择及性别规整、时序结构特征参数选择、性别规整及元音数目规整；支持向量机（ＳＶＭ）有支持向量机训练、对高兴、生气、悲伤、恐惧、惊讶五种情感进行识别。解决了矢量分割型马氏距离判法、主元分析法、神经网络法、隐马尔可夫法等的各自缺陷。本发明专利技术加强了特征参数的有效性，加入性别规整，用最少支持向量，在错分样本和算法复杂度之间获得最好的语音识别，在单个ＳＶＭ及多个ＳＶＭ结合的多模式具有连续输出函数，降低误识率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种语音识别方法，特别涉及一种语音情感识别系统及方法。
技术介绍
语音情感自动识别技术主要包括两个问题一是采用语音信号中的何种特征作为情感识别，也就是情感特征提取的问题，一是如何将特定的语音数据进行分类，也就是模式识别的问题。在本专利技术之前，目前主要使用的情感特征是韵律特征及其衍生参数，如持续时间、语速、振幅、基音频率、共振峰等。其中，基音频率和共振峰频率是重要的情感参数，但是由于人和人之间存在的个体差异性(声道的易变性、声道特征、单词发音音调等)目前存在的方法都难以实现基音和共振峰的精确检测，单纯的使用全局基音均值、共振峰均值等常见的衍生参数难以实现较高的情感识别率。并且这些参数主要体现的是人体的声门和声道的特征，因此和人的生理构造有着密切的关系，在不同的个体上显现出较强的相异性。这种差异在不同的性别上尤其明显。在过去的文献中，这些在不考虑情感因素情况下的声学参数性别差异已得到充分的研究，然而针对不同性别下的特征参数在情感状态下的影响，则较少有文献给予专门研究。在已有的各种识别方法中，具体而言，矢量分割型马氏距离判法、主元分析法过于简单，不足于取得好的识别率；神经网络法虽然具有高度的非线性和极强的分类能力，但是随着网络的增大所需学习时间增加很快，另外局部极小问题也是一个不足之处；隐马尔可夫法(HMM)在建立和训练时间上较长，应用于实际还需要解决计算复杂度过高的问题。另外，虽然上述方法在实验环境下有一定的识别率，但主要是根据已有的语音库样本使训练集的性能最优，而实际中环境往往训练集有较大的差异。
技术实现思路
本专利技术的目的就在于上述现有...

【技术保护点】
一种基于支持向量机的语音情感识别方法，其步骤为：　　　　建立特征提取分析模块、ＳＶＭ训练模块、ＳＶＭ识别模块；特征提取分析模块包括全局结构特征参数提取、时序结构特征参数提取；首先对原始语音信号预加重、分帧，然后分别进行全局结构特征提取、时序结构特征提取；　　　　（１）全局结构特征参数提取：　　　　（１－１）将原始语音信号经高通滤波器预处理，提取发音持续时间、语速参数；　　　　（１－２）分帧，加窗；　　　　（１－３）应用短时分析技术，分别提取各帧语句主要特征参数：基音频率轨迹、振幅、共振峰频率轨迹；　　　　（１－４）提取上述特征参数的衍生参数：平均基音频率，最高基音频率、基音频率平均变化率、平均振幅曲线、振幅动态范围、最高第一共振峰频率曲线、第一共振峰平均变化率、最高第二共振峰频率；　　　　（２）时序结构特征参数提取：　　　　（２－１）将原始语音信号分帧后，经由２４个等带宽的滤波器组成的美尔标度频率滤波器组滤波，每帧信号以一个能量系数向量表示；　　　　（２－２）计算频带能量累积量，用当前帧的美尔标度滤波器组的平均能量与各个美尔标度滤波器的能量做差值，求得所有差值的绝对值的加权和，得到频带...

【技术特征摘要】
1.一种基于支持向量机的语音情感识别方法，其步骤为建立特征提取分析模块、SVM训练模块、SVM识别模块；特征提取分析模块包括全局结构特征参数提取、时序结构特征参数提取；首先对原始语音信号预加重、分帧，然后分别进行全局结构特征提取、时序结构特征提取；(1)全局结构特征参数提取(1-1)将原始语音信号经高通滤波器预处理，提取发音持续时间、语速参数；(1-2)分帧，加窗；(1-3)应用短时分析技术，分别提取各帧语句主要特征参数基音频率轨迹、振幅、共振峰频率轨迹；(1-4)提取上述特征参数的衍生参数平均基音频率，最高基音频率、基音频率平均变化率、平均振幅曲线、振幅动态范围、最高第一共振峰频率曲线、第一共振峰平均变化率、最高第二共振峰频率；(2)时序结构特征参数提取(2-1)将原始语音信号分帧后，经由24个等带宽的滤波器组成的美尔标度频率滤波器组滤波，每帧信号以一个能量系数向量表示；(2-2)计算频带能量累积量，用当前帧的美尔标度滤波器组的平均能量与各个美尔标度滤波器的能量做差值，求得所有差值的绝对值的加权和，得到频带能量累积量；Sbec(t)=Σi=124αi|Ei(t)-E&OverBar;(t)|]]>(式1)t表示当前帧，Ei(t)为第i个美标度滤波器的能量， E(t)为美尔标度滤波器组的平均能量，αi为第i个滤波器的权重系数；(2-3)根据频带能量累积量峰值来判定元音位置或元音区间，并用简化能量累积量的分布来确定元音的位置，Rec=Σi=124αi|Ei(t)-E&OverBar;(t)|=RecLF+RecHF]]>(式2)t表示当前帧，Ei(t)为第i个美标度滤波器的能量， E(t)为美标度滤波器组的平均能量，αi为第i个滤波器的权重系数，RecLF为低频部分(300～1000Hz)对应的Rec值、RecHF为高频部分(1000～3200Hz)对应的Rec值，根据Rec值的分布，利用峰值确定元音的位置，Rec值作为判别元音的标准必须满足两个条件当前语音段必须长于15ms，低频和高频的能量分布必须均衡，即满足下式RecLFRecHF&GreaterEqual;0.5]]>Δt≥15ms (式3)Δt为当前帧的长度；(2-4)采用短时分析方法，按照性别分别计算情感语句各元音区间的基音轨迹、3个共振峰轨迹、振幅能量轨迹；(2-5)计算情感语句各元音区间的最高基音频率、该基音频率所对应帧的振幅能量、各元音区间的最高振幅能量、该振幅所对应帧的基音频率、各元音区间的持续时间以及前3个共振峰频率；(2-6)采用均值补齐方法规整元音，即选取情感语句中元音个数最多的句子为基准，对于元音个数少的语句在尾部用全句平均值代替、补齐参数向量；将提...

【专利技术属性】
技术研发人员：赵力，王治平，赵艳，郑文明，
申请(专利权)人：邹采荣，
类型：发明
国别省市：84[中国|南京]

全部详细技术资料下载我是这个专利的主人