当前位置: 首页 > 专利查询>东南大学专利>正文

基于情感对特征优化的语音情感分类方法技术

技术编号:4049927 阅读:236 留言:0更新日期:2012-04-11 18:40
本发明专利技术公布了一种基于情感对特征优化的语音情感分类方法,包括如下步骤:(1)采集喜、怒、惊、悲,和平静五种基本情感状态的语音数据;(2)语音情感特征提取;(3)情感对的配对;(4)特征压缩与特征选择:(4-1)线性判别分析(LDA)降维;使用每个情感对各自的投影向量,分别进行各自的LDA变换;(4-2)基于fisher判别准则的特征选择方法;(5)基于两类分类器组的判决融合:(5-1)记输入的情感语音数据(5-2)两类分类器的判决输出Ci,j;(5-3)每个两类分类器的置信度wi,j,用式(3)来得到:(5-4)用相关译码的方法来进行判决:最大的相关值对应的情感类别,即为识别结果。

【技术实现步骤摘要】

本专利技术涉及一种语音识别方法,特别涉及一种基于情感对特征优化的自动语音情 感识别方法。
技术介绍
语音情感识别是从语音信号中识别出说话人的情感状态。一般的语音情感分类 器,可以在一定程度上区分喜悦、愤怒、惊讶、悲伤、恐惧等基本情感类别。建立一个语音情 感分类器,首先需要确定待识别的情感类别,建立相应的情感语料库,然后根据情感语料库 中的语音数据,寻找合适的语音情感特征,通常是依据基音、短时能量、共振峰等参数构造 的声学特征,最后采用统计的方法建立语音情感模型。其中语音情感特征的优劣对分类器 的性能具有关键的影响。语音情感分类器的性能,一般包括以下几个方面,所识别的情感类别范围与识别 率、适用的说话人群体、对文本内容的依赖程度以及跨语种性能等。其中,识别率是最常用 的衡量分类器性能优劣的指标,通常,所能识别的情感类别越多,平均识别率就越低。语音情感特征的优化是设计分类器的一个关键部分。目前,一般的做法是首先提 取基本的声学参数,在基本声学参数的基础上构造大量的情感特征,然后通过特征选择算 法得到维数较少的最佳特征组。在语音情感的特征优化中存在的一个问题是,一般的语音情感分类器采用单一的 一组最佳特征来进行全部情感类别的分类,使用这一组情感特征并不能达到对任意两个情 感类别之间的最优区分。例如,选择一组特征最优的区分A、B、C、D、E五类语音情感,但是 这一组特征往往不能使A与B之间的误识别率在最优化的意义上降到最低。
技术实现思路
本专利技术目的是针对现有技术存在的缺陷提供一种基于情感对特征优化的语音情 感分类方法。本专利技术为实现上述目的,采用如下技术方案本专利技术,包括如下步骤(1)采集喜、怒、惊、悲,和平静五种基本情感状态的语音数据;(2)语音情感特征提取;(3)情感对的配对;(4)特征压缩与特征选择(4-1)线性判别分析(LDA)降维,分别通过每个情感对的类内、类间离散度矩阵来 计算各自的投影变换向量;使用每个情感对各自的投影向量,分别进行各自的LDA变换;(4-2)基于fisher判别准则的特征选择方法Fisher判别准则如式(1)所示 (1)其中y ld、y 2d为第d个维度两个类别的特征值的均值,CT&,C722d为第d个维度两个 类别的特征值的方差;(5)基于两类分类器组的判决融合(5-1)记输入的情感语音数据,经过步骤(4)特征选择后构成待识别的样本矢量 为X,一个两类分类器识别的情感为第i个情感与第j个情感,则通过GMM模型得到的GMM 似然度为,P(X| Ai),P(X、),其中、,^为两种情感的GMM模型的参数; (5-2)两类分类器的判决输出Cy为Jh P(XU)>P(X|AV.) IJ~{j\ P(X|^)<P(X|ly)(5-3)每个两类分类器的置信度&,」,用式(3)来得到 (5-4)用相关译码的方法来进行判决,即每个两类分类器的输出值构成列向量C,设定的情感码字记为矩阵ImXn,m为分类 器的个数,n为情感类别数。输出值与码字间的距离即为相关值i = 1,2,…n,通过式 ⑷得到,RT = CT ImXn(4)其中,R={ri,巧,…,rn},每个分量与一种情感对应。最大的相关值对应的情感类别,即为识别结果,i* = arg max{rj(5) i*表示识别出的情感类别的标号。 本专利技术的优点和效果在于(1)能够将任意两个情感类别之间的识别错误率在最优化的意义上降到最低。(2)能够获得每两个情感类别之间的最佳特征组。(3)能够获得每两个情感类别之间的最佳特征空间。(4)将两类分类器组的输出通过相关译码的方法进行融合判决以实现多类别的识别。 (5)识别系统整体的识别率显著高于传统方法。附图说明图1—一语音情感识别系统框图。图2—一情感对分组的LDA降维优化效果图。图3—一分类器组的判决融合框图。图4—-LDA方法的错误率的下降幅度图。图5—一最佳特征组方法的错误率的下降幅度图。具体实施例方式本专利技术中的语音情感识别系统框图如图1所示。1.语音情感数据库(1)在所分析的情感种类上,本专利技术选取分析了喜、怒、惊、悲,和平静五种基本的 情感状态。(2)本专利技术中使用的中文语音情感库,是通过表演语音(Acted Speech)的方法得 到的。语句材料的录制是由具有表演或广播经验的人(三男三女,年龄在20-30岁之间,近 期无感冒,普通话标准)来录音。录音时在安静的录音室内进行。录音时选用AKGWMS300的 录音设备和话筒,Creative的声卡,Cool Edit录音软件来录音。录音时采用单声道,16bit 量化,11. 025kHz的采样率。语句存为WAV格式。(3)语句资料的选取上,遵循两条原则1、所选取的语句不包含某一方面的情感 倾向;2、语句必须具有较高的情感自由度,对同一语句可以施加不同的情感。为了保证录制 的情感语料的质量,进行了主观听辨评价,选取了置信度85%以上的语句,男性1410条,女 性1429条。2.语音情感特征提取用于识别和建模的特征向量一般有两种构造方法,全局统计特征和短时动态特 征。由于动态特征对音位信息的依赖性较强,而全局统计特征受到文本内容的影响较小,采 用全局统计特征易于建立与文本无关的情感识别系统,在本专利技术中选用了 84个全局统计 特征,如下所示特征1-10 短时能量及其差分的均值、最大值、最小值、中值、方差;特征11-25 基音及其一阶、二阶差分的均值、最大值、最小值、中值、方差;特征 26 基音范围;特征27-36 发音帧数、不发音帧数、不发音帧数和发音帧数之比、发音帧数和总 帧数之比、发音区域数、不发音区域数、发音区域数和不发音区域数之比、发音区域数和总 区域数之比、最长发音区域数、最长不发音区域数;特征37-66 第一、第二、第三共振峰及其一阶差分的均值、最大值、最小值、中值、方差;特征67-69 :250Hz以下能量百分比、650Hz以下能量百分比、4kHz以上能量百分 比。特征70-84 0-400Hz、400-2000Hz、2000-5000Hz三个频段中的谐波噪声比的均值、最大值、最小值、中值、方差。其中,在构造频谱能量的分频段特征时,未采用650Hz_4kHz内的能量百分比,虽 然这个频段涉及第一共振峰和几乎全部的第二共振峰,但是此频段的能量受到文本内容变 化的影响较大,主要随着音位信息的变化而变化。采用了 4kHz以上频谱能量特征,根据Pittam等人的研究结果显示,这一部分频段 能量的增加能反映激励程度的提高,可用于区分悲伤与愤怒等。谐波噪声比以往常用于诊断喉部疾病,是衡量说话人嗓音沙 程度的一个特征。 Biemans将谐波噪声比作为音质特征用于评价语音的音质,考虑基频与各个共振峰的分布, 本专利技术中采用Biemans的三个频段的划分方法提取语音情感的谐波噪声比特征。53.情感对的配对在本专利技术中对五种情感类别(喜、怒、惊、悲、平静),分别两两进行特征降维优化 和最佳特征组选择。将这五个类别两两组合可以分成为10个情感对,如表1所示。对每个 情感对的特征压缩与特征选择,对应了一个两类分类器。表1情感对的十种组合 4.特征压缩与特征选择可以采用两种方法对特征空间进行优化,一是线性判别分析(LDA)降本文档来自技高网...

【技术保护点】
一种基于情感对特征优化的语音情感分类方法,包括如下步骤:(1)采集喜、怒、惊、悲,和平静五种基本情感状态的语音数据;(2)语音情感特征提取;(3)情感对的配对;其特征在于还包括如下步骤:(4)特征压缩与特征选择:(4-1)线性判别分析(LDA)降维,分别通过每个情感对的类内、类间离散度矩阵来计算各自的投影变换向量;使用每个情感对各自的投影向量,分别进行各自的LDA变换;(4-2)基于fisher判别准则的特征选择方法Fisher判别准则如式(1)所示:f(d)=(μ↓[1d]-μ↓[2d])↑[2]/σ↓[1d]↑[2]+σ↓[2d]↑[2](1)其中μ↓[1d]、μ↓[2d]为第d个维度两个类别的特征值的均值,σ↓[1d]↑[2],σ↓[2d]↑[2]为第d个维度两个类别的特征值的方差;(5)基于两类分类器组的判决融合:(5-1)记输入的情感语音数据,经过步骤(4)特征选择后构成待识别的样本矢量为X,一个两类分类器识别的情感为第i个情感与第j个情感,则通过GMM模型得到的GMM似然度为,P(X|λ↓[i]),P(X|λ↓[i]),其中λ↓[i],λ↓[j]为两种情感的GMM模型的参数;(5-2)两类分类器的判决输出C↓[i,j]为:C↓[i,j]=***(2)(5-3)每个两类分类器的置信度w↓[i,j],用式(3)来得到:w↓[i,j]=2×|ln(P(X|λ↓[i]))-ln(P(X|λ↓[j]))|/|ln(P(X|λ↓[i]))+ln(P(X|λ↓[j]))|(3)(5-4)用相关译码的方法来进行判决:即:每个两类分类器的输出值构成列向量C,设定的情感码字记为矩阵I↓[m×n],m为分类器的个数,n为情感类别数。输出值与码字间的距离即为相关值r↓[i],i=1,2,…n,通过式(4)得到,R↑[T]=C↑[T].I↓[m×n](4)其中,R={r↓[1],r↓[2],…,r↓[n]},每个分量与一种情感对应。最大的相关值对应的情感类别,即为识别结果,i↑[*]=argmax{r↓[i]}(5)i↑[*]表示识别出的情感类别的标号。...

【技术特征摘要】

【专利技术属性】
技术研发人员:赵力黄程韦邹采荣余华王开
申请(专利权)人:东南大学
类型:发明
国别省市:32[中国|江苏]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利