当前位置: 首页 > 专利查询>山东大学专利>正文

一种考虑语音中多线性群组稀疏特性的情绪特征提取方法技术

技术编号:7602424 阅读:314 留言:0更新日期:2012-07-22 05:00
本发明专利技术公开了一种考虑语音中多线性群组稀疏特性的情绪特征提取方法,该方法考虑语音信号中包括时间、频率、尺度和方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取,通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征,利用群组稀疏张量分解方法求解特征投影矩阵,计算频率阶上的特征投影,经过离散余弦变换对特征去相关,最终计算特征的一阶和二阶差分系数,得到语音情绪特征。本发明专利技术考虑语音信号中的时间、频率、尺度和方向等因素用于情绪的特征提取,利用群组稀疏张量分解方法进行特征投影,最终提高了多类语音情绪识别的准确率。

【技术实现步骤摘要】

本专利技术涉及一种用于提高语音情绪识别性能的语音情绪特征提取方法,属于语音信号处理

技术介绍
语音是人们在日常生活中进行交流的最便捷的方式之一,这也使得研究人员积极探索如何利用语音作为人和机器之间进行交流的工具。除了传统的语音识别等人机交互模式外,说话人的情绪也是一种重要的交互信息,机器能够自动识别理解说话人的情绪是人机交互智能化的重要标志之一。语音情绪识别在信号处理和智能人机交互领域具有重要的价值,有着很多潜在的应用。在人机交互方面,通过计算机识别说话人的情绪可以提高系统的亲切性和准确性,例如远程教育系统可以通过识别学生的情绪及时调整课程,从而提升教学效果;在电话呼叫中心和移动通信中,可以及时获取用户的情绪信息,提高服务的质量;车载系统可以通过情绪识别检测司机的精力是否集中,并做出相应的辅助警示。在医学方面,基于语音的情绪识别可以作为一种工具,帮助医生对病人的病情进行诊断。对于语音情绪识别来说,一个重要的问题就是如何提取出有效的特征用来表示不同的情绪。按照传统的特征提取方法,通常会将一段语音信号分成多帧,以便得到近似平稳的信号。从每一帧获取的周期性特征称为局部特征,例如基音、能量等,其优点是现有的分类器能够利用局部特征较为准确的估计出不同情绪状态的参数,缺点是特征维数和样本数较多,影响到特征提取和分类的速度。通过对整个句子的特征进行统计得到特征称为全局特征,其优点是能够获得较好的分类精度和速度,但是丢失了语音信号的时序信息,容易出现训练样本不足的问题。一般情况下,语音情绪识别常用的特征有以下几类连续声学特征、谱特征、基于Teager能量算子的特征等等。根据心理学和韵律学等的研究结果,说话人的情绪在语音中最直观的特征就是韵律连续特征,如基音、能量、说话的速率等。对应的全局特征包括基音或者能量的均值、中位数、标准偏差、最大值、最小值等,以及第一、第二共振峰等等。谱特征提供了语音信号中的有用的频率信息,也是语音情绪识别中重要的特征提取方式。常用的谱特征包括线性预测系数(LPC)、线性预测倒谱系数(LPCC)、美尔频率倒谱系数(MFCC)、感知加权线性预测(PLP)等等。语音是由发声系统中的非线性空气流产生的,Teager能量算子(TEO)是Teager 等人提出的一种能够快速跟踪声门周期内信号能量变化的运算操作,用于分析语音的精细结构。不同的情绪状态下,肌肉的伸缩情况会影响发声系统中空气流的运动,根据 Bou-Ghazale等人的研究结果可以知道,基于TEO的特征可以用来检测语音中的紧张情绪。根据众多实验评估结果,对于语音情绪识别来说,要针对不同的分类任务来选择合适的特征表征,基于Teager能量的特征适合于检测语音信号中的紧张情绪;连续声学特征则适合区分高唤醒情绪(high-arousal emotion)和低唤醒情绪(low-arousalemotion);而对于多类的情绪分类任务,谱特征是最适合的语音表征,如果将谱特征与连续声学特征结合,或者考虑多种因素的关联分析,也能够达到提高分类精度的目的。在语音情绪特征提取和选择完成之后的另外一个重要阶段就是分类。目前模式识别领域中各种分类器都被用来对语音情绪特征进行分类,包括隐马尔科夫模型(HMM)、高斯混合模型(GMM)、支持向量机(SVM)、线性判别分析(LDA)和集成分类器等等。隐马尔科夫模型是在语音情绪识别中应用的最广泛的识别器之一,这得益于它在语音信号中的普遍应用,尤其适用于处理具有时序结构的数据,从目前的研究结果来看,基于隐马尔科夫模型的情绪识别系统能够提供较高分类准确率。高斯混合模型可以看作是只有一个状态的隐马尔科夫模型,非常适合于对多元分布进行建模,Breazeal等人利用GMM作为分类器应用于 KISMET语音数据库,对五类情绪进行分类识别。支持向量机已经被广泛应用模式识别领域, 其基本原理是通过核函数将特征投影到高维空间使得特征线性可分,相比HMM和GMM,它具有训练算法全局最优以及存在依赖于数据的泛化边界的优点,不少研究结果是利用支持向量机作为语音情绪识别的分类器并取得了较好的分类效果。如图I所示,传统的基于谱特征的语音情绪识别方法通常采用以下步骤I)对输入的语音信号进行预处理,包括加窗、滤波、预加重等;2)对信号进行短时傅立叶变换,通过美尔三角窗进行滤波,然后求对数谱(取 log);3)利用离散余弦变换计算倒谱,然后加权,求倒谱均值减,计算差分;4)利用高斯混合模型(GMM)进行训练,获得不同情绪的模型;5)通过训练得到的情绪模型,对测试数据进行识别,得到识别准确率。目前针对两类情绪分类,如负面情绪和中立情绪,已经达到了相对较好的分类精度,但是对于多类情绪的分类,由于数据的不平衡性,只考虑单一因素(频率或者时间)等原因,使得特征可区分性较差,情绪分类精度相对较低,这使得基于语音的情绪识别系统应用受到限制。
技术实现思路
针对传统语音情绪识别中的特征提取只考虑单一因素,如频率或者时间,使得特征可区分性较差的问题,本专利技术提出一种考虑语音中多线性群组稀疏特性、用于语音情绪识别并能够提高多类情绪识别准确率的语音情绪特征提取方法。本专利技术的考虑语音中多线性群组稀疏特性的情绪特征提取方法,是考虑语音信号中包括时间、频率、尺度和方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取,通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征,利用群组稀疏张量分解方法求解特征投影矩阵,计算频率阶上的特征投影,经过离散余弦变换对特征去相关,通过差分获得特征的一阶和二阶差分系数;具体包括以下步骤(I)采集语音信号s (t)(通过麦克风等设备采集),利用短时傅里叶变换将s (t) 变换到时频域,得到信号的时频表示S (f,t)和能量谱P (f,t);(2)利用具有不同尺度和方向的二维Gabor函数对能量谱进行卷积滤波,Gabor函数定义如下权利要求1.一种考虑语音中多线性群组稀疏特征的语音情绪特征提取方法,其特征是考虑语音信号中包括时间、频率、尺度和方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取,通过不同尺度和方向的Gabor函数对语音信号能量谱进行多线性表征,利用群组稀疏张量分解方法求解特征投影矩阵,计算频率阶上的特征投影,经过离散余弦变换对特征去相关,计算特征的一阶和二阶差分系数,具体包括以下步骤(1)采集语音信号s(t),利用短时傅里叶变换将s (t)变换到时频域,得到信号的时频表示S(f,t)和能量谱P (f,t);(2)利用具有不同尺度和方向的二维Gabor函数对能量谱进行卷积滤波,Gabor函数定义如下2.根据权利要求I所述的基于多线性群组稀疏特征的语音情绪特征提取方法,其特征是所述计算投影矩阵U(i),i = 1,L I的具体的分解过程如下,这里i表示阶(对应不同因素)的索引,1 = 5:①采用交替最小均方或者随机初始KU(i)^ O, i = 1,L, I ;②对投影矩阵U⑴,i= 1,L I的每个列向量4), i = 1,L,I,k = 1,L,K进行归一化;③误差目标函数全文摘要本专利技术公开了,该方法考虑语音信号中包括时间、频率、尺度和方向信息的多重因素,利用多线性群组稀疏分解的方法进行特征提取,本文档来自技高网
...

【技术保护点】

【技术特征摘要】

【专利技术属性】
技术研发人员:吴强刘琚孙建德
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术