一种用于语音情感识别的语音情感特征提取方法技术

技术编号:4089825 阅读:256 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种用于语音情感识别的语音情感特征提取方法,包括下列步骤:1)对语音信号进行FFT计算得到均匀的通带能量;2)以通带能量为特征,计算各频点处的语音情感信息的F-Ratio值,得出语音情感信息的F-Ratio值在各个频带上的分布图;3)根据所述语音情感信息的F-Ratio值在各个频带上的分布图得出非均匀美尔子带滤波器,所述非均匀美尔子带滤波器各个通带的带宽和其所对应的F-Ratio值成反比关系;4)用所述非均匀美尔子带滤波器得到待识别语音信号各子带的能量输出,进而得出待识别语音信号的语音情感特征。本发明专利技术能够加大各类情感之间的鉴别性,相比于传统的MFCC特征,提高了情感识别的性能。

【技术实现步骤摘要】

本专利技术涉及语音情感识别
,具体地说,本专利技术涉及一种应用于语音情感 识别系统的特征提取方法。
技术介绍
随着计算机网络通信技术和多媒体技术的飞速发展,新型的人机交互技术已成为 当前计算机科学领域一个十分活跃的研究课题。语音情感识别的研究对于增强计算机的智 能化和人性化,开发新型人机环境,以及推动心理学等学科的发展,有着重要的现实意义, 并最终产生很大经济效益和社会效益。语音情感识别,对于语音识别整体技术的提高也是 很有好处的。一般说来,语音中包含了说话内容、说话人、情感、语气、语义等丰富信息。其 中对于说话内容的识别,也就是常规的语音识别,以及说话人识别等,业界进行了长期的持 续的研究,也取得了不错的成果。近来,以NIST (美国标准技术研究所)主导的丰富标注评 测项目,引起来越来越多的人的关注。语音识别不再是单独对内容的识别,而是更加注重对 含义、情感等信息的提取。另一方面,情感信息的提取,还能为语音识别提供信息和补偿作 用,推动语音识别稳健性的提升。关于语音情感识别的研究,可以采用的分类器都已近很成熟了,如混合高斯模型 分类器(参见黄锋,尹俊勋,“一种基于GMM模型的语音情感识别方法”,《微计算机信息》, 2009 25(10))。而如何从语音信号中提取出更加适合于语音情感识别的特征成为了提高识 别率的最关键问题。之前的很多研究,大多数采用了基于韵律的特征,不过单独使用韵律特 征的系统,其识别率是不理想的,原因之一就是很多情感的韵律特征有相同的特性,导致分 类器不能很好的将它们分开。而传统的应用于说话人识别和语音识别里面的基于频谱的特 征MFCC(美尔频率倒谱系数),也经常被拿来用于语音情感识别中,其性能相比单独使用韵 律特征要好些。然而,基于频谱的特征MFCC,是从人听觉感知的角度,更多的强调语音、以及 说话人的信息特性。而在语音情感识别中,应该强调其情感信息,而消减语音和说话人的信 息。这一点和语音识别和说话人识别是不同的。对于语音识别来说,特征应该强调语音的 信息,而说话人的特征应该强调说话人的信息。这个差异表明目前常用的基于均勻美尔域 的特征MFCC不能满足情感识别的要求,迫切需要一种能够更加适合于语音情感识别的特 征提取方法。
技术实现思路
本专利技术要解决的技术问题是提供一种对语音情感识别更有效的特征提取方法,通 过该特征提取方法,一方面可以提高各语音情感之间的区分性,对语音情感的分类提供更 有效的特征,另一方面可以降低语音情感内部的差异性,减少语音情感识别的错误率。为达到上述专利技术目的,本专利技术提供了一种用于语音情感识别的语音情感特征提取 方法,包括下列步骤1)对已知情感的标准预料库中的语音信号进行FFT计算、并通过均勻的三角型带通滤波器得到均勻的通带能量;2)以步骤1)所得到的通带能量为特征,计算各频点处的语音情感信息的F-Ratio 值,得出语音情感信息的F-Ratio值在各个频带上的分布图;3)根据所述语音情感信息的F-Ratio值在各个频带上的分布图得出非均勻美尔 子带滤波器,所述非均勻美尔子带滤波器各个通带的带宽和其所对应的F-Ratio值成反比 关系;4)用非均勻美尔子带滤波器得到所述待识别语音信号各非均勻美尔子带的能量 输出,进而得出所述待识别语音信号的语音情感特征。本专利技术还提供了相应的语音情感识别方法,包括按上述1)至4)步骤得出待识别语音信号的语音情感特征;5)将待识别语音信号的语音情感特征输入分类器(如混合高斯模型分类器),得 出语音情感识别结果。本专利技术具有下述技术效果本专利技术的语音情感识别特征提取方法,从模式分类的角度,评估了语音情感信息 在频率域上的分布情感,从理论上更有利于语音情感的分类。利用该信息,采用非均勻子带 滤波器反映这种关系,从而更好的挖掘对语音情感有益的信息。在所作的统计实验中,使用 本专利技术特征计算方法的语音情感识别系统的结果,提取的特征加大了各类情感之间的鉴别 性,相比于传统的MFCC特征,提高了情感识别的性能。附图说明图1是语音情感信息在频率域的分布图;图2是本专利技术的特征提取流程图;图3是非均勻子带滤波器的计算框图;图4是在情感语料库上识别率改进对比图。具体实施例方式本专利技术提供了一种基于非均勻子带的处理方法,如图2所示,其框架是基于传统 的MFCC特征改进的,通过在频谱通带能量阶段引入F-Ratio分析得到非均勻的区分度信 息,并引入滤波器的通带设计重新计算特征,具体包括以下步骤1)对已知情感的标准预料库中的语音信号的预处理和加窗;这是基于语音信号 的短时平稳性进行的,对于语音情感识别来说,加窗与否和加窗参数不一定要和语音识别 一致。因为语音识别是为了区分短时的音素信息,而语音情感识别是为了区分情绪状态,通 常来说,其窗长应该长些。另一方面,预处理应该尽可能的去掉静音和噪声,这些对于语音 情感识别也都是干扰作用的,对性能影响很大。2)对已知情感的标准预料库中的语音信号进行FFT计算得到均勻的通带能量;受 到语速、能量等影响,时域的信息是变化万千不易规整的;把时域的采样点作为特征,以16 千赫兹采样、25毫秒窗长为例,特征的维数将多达400,对于分类很不利。因此,类似语音识 别,时域的采样点被转到频域,得到各个频率处的频谱分量。3)在步骤2)得到的通带能量的基础上,引入F-Ratio度量语音情感信息在各个频4带上的分布图。人分辨情感,是基于某些模式进行的,例如舌位的运动等,它在频率域上会 有不同的反映,受人体发音器官的限制,频率域上有些地方敏感些,有些地方受影响很小。 基于这个思想,本专利技术以通带能量为特征,引入模式识别领域的F-Ratio分析,对各个频率 点对情感语音识别的区分度进行量化分析,得到语音情感信息在频率域的分布图,图1给 出了一个语音情感信息在频率域的分布图的例子,其纵坐标代表F-Ratio值的大小,单位 为1。4)基于在步骤3)得到的语音情感信息在频率域的分布图,根据图3中的算法,通 过加强信息多的频谱(例如3000赫兹附近)的分辨率,抑制对信息偏少区域(例如1000 赫兹附近)的分辨率,得到每个非均勻美尔子带的带宽,即可完成通带滤波器的重新设计。5)利用重新设计的非均勻美尔子带滤波器得到待识别语音信号各子带的能量输 出,并对各子带能量进行取对数、进行DCT (离散余弦变换)得到倒谱系数,最后对倒谱系 数进行均值方差规整。这些处理可以控制特征的动态范围、对特征进行进一步的去冗余操 作、以及去除信道噪声的影响,会更加稳健、更加实用(可参考文献Xuedong Huang, Alex Acero, Hsiao-ffuen Hon. Spoken Language Processing[M]. NewJersey :Prentice Hall PTR,2001)。下面结合具体实施例和附图对本专利技术进行详细描述。实施例本专利技术提供的情感识别特征计算方法,包括以下步骤1)语音信号的预处理和加窗;这里采用各帧有重叠的方法,为了和传统MFCC相 比,帧长帧移分别都是25ms、10ms。引入了基于能量的语音端点检测技术,对静音、噪音等进 行判断并丢弃。2) FFT计算并得到均勻的通带能量。FFT计算后,得到nbin个频率分量(对于16k 采样语音本文档来自技高网
...

【技术保护点】
一种用于语音情感识别的语音情感特征提取方法,包括下列步骤:1)对已知情感的标准预料库中的语音信号进行FFT计算、并通过均匀带通滤波器得到均匀的通带能量;2)以步骤1)所得到的通带能量为特征,计算各频点处的语音情感信息的F-Ratio值,得出语音情感信息的F-Ratio值在各个频带上的分布图;3)根据所述语音情感信息的F-Ratio值在各个频带上的分布图得出非均匀美尔子带滤波器,所述非均匀美尔子带滤波器各个通带的带宽和其所对应的F-Ratio值成反比关系;4)对待识别语音信号,进行FFT计算得到能量频谱,然后用所述非均匀美尔子带滤波器进行滤波,得到所述待识别语音信号各非均匀美尔子带的能量输出,进而得出所述待识别语音信号的语音情感特征。

【技术特征摘要】
一种用于语音情感识别的语音情感特征提取方法,包括下列步骤1)对已知情感的标准预料库中的语音信号进行FFT计算、并通过均匀带通滤波器得到均匀的通带能量;2)以步骤1)所得到的通带能量为特征,计算各频点处的语音情感信息的F Ratio值,得出语音情感信息的F Ratio值在各个频带上的分布图;3)根据所述语音情感信息的F Ratio值在各个频带上的分布图得出非均匀美尔子带滤波器,所述非均匀美尔子带滤波器各个通带的带宽和其所对应的F Ratio值成反比关系;4)对待识别语音信号,进行FFT计算得到能量频谱,然后用所述非均匀美尔子带滤波器进行滤波,得到所述待识别语音信号各非均匀美尔子带的能量输出,进而得出所述待识别语音信号的语音情感特征。2.根据权利要求1所述的语音情感特征提取方法,其特征在于,所述步骤1)还包括 在进行FFT计算前,首先对语音信号进行预处理和加窗;所述预处理包括去掉所述语音信 号中的静音和噪声。3.根据权利要求1所述的语音情感特征提取方法,其特征在于,所述步骤2)中,F — Ratio = -fi=1 ^ - f ~-Q Σ =1 Sj = I — eO2其中,^ =悬Σ =1=忐Ef=I Σ =1 ^是第i种情感...

【专利技术属性】
技术研发人员:颜永红周瑜孙艳庆李军锋
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1