当前位置: 首页 > 专利查询>湖南商学院专利>正文

一种利用情感感知谱特征进行语音情感识别的方法技术

技术编号:19513865 阅读:23 留言:0更新日期:2018-11-21 09:20
本发明专利技术涉及一种利用情感感知谱特征进行语音情感识别的方法,首先对输入语音信号采用预加重方法进行高频增强,然后采用快速傅立叶变换将其转换到频率得到语音频率信号;再针对语音频率信号采用情感感知子带划分方法将信号划分为多个子带;对每个子带进行情感感知谱特征计算,谱特征包括情感熵特征、情感谱谐波倾度和情感谱谐波平坦度;再对谱特征进行全局统计特征计算得到全局情感感知谱特征向量;最后将情感感知谱特征向量输入到SVM分类器,得到语音信号的情感类别。本发明专利技术根据语音心理声学模型原理,采用感知子带划分方法精确描述情感状态信息,通过子带谱特征进行情感识别,相比传统MFCC特征提高了10.4%的识别率。

【技术实现步骤摘要】
一种利用情感感知谱特征进行语音情感识别的方法
本专利技术涉及语音情感识别
,尤其涉及情感感知谱特征的语音情感识别方法。
技术介绍
语音是人们交流中最重要的方式,语音信号不仅蕴含了丰富的语义信息,还携带了丰富的情感状态。分析语音中的情感特征,并采用机器学习的方法识别出语音情感状态,可以在很多场景中得到应用,如:虚拟现实中,通过识别人类情感,提高人机交互的自然度;汽车驾驶中,通过识别驾驶员精神状态提高驾驶安全;医学中,通过识别患者精神状态提供诊断依据;自动客服中,通过识别客户情绪提高客服质量。近年来,随着人工智能的迅猛发展,虚拟现实的应用需求,语音情感识别已成为人机交互领域的研究热点。现有语音情感识别
主要分类特征提取和情感分类。本专利技术关注语音情感特征提取,并使用支持向量机分类器(SVM)进行语音情感特征识别。语音情感特征主要分为韵律学特征、声音质量特征、谱特征等。其中谱特征以梅尔频率倒谱系数(MFCC)、线性预测系数(LPC)使用最为广泛。这类谱特征能较好地描述语音信号的频率包络特征,因此具有一定的情感状态区分度。但情感信息相比语音内容表现更为细腻,现有MFCC和LPC等传统谱特征难以表达更加接近的情感状态,如:悲伤、害怕。本专利技术根据语音心理声学模型原理,从情感感知角度出发,通过感知子带划分精确地提取情感状态的谱特征,最后采用SVM分类器进行情感识别。本专利技术的方法在SVM分类器下,提供一种利用情感感知谱特征进行情感识别的方法,该方法因可以精确描述情感感知状态,相比传统MFCC特征,识别率提高10.4%以上。
技术实现思路
本专利技术的目的是提供一种情感感知谱特征用于语音情感识别的方法,使得在SVM分类器下提高情感识别率。为达到上述目的,本专利技术提供一种利用情感感知谱特征进行语音情感识别的方法,包括以下步骤:步骤1:实现语音信号的预处理和时频变换:对输入的语音信号s(n)进行加窗分帧,然后对每帧信号采用高通滤波器进行高频信号的增强,再对高频增强后的每帧信号采用快速傅立叶变换方法进行时频变换得到语音频率信号Y(n);步骤2:实现情感感知子带划分:对步骤1中得到的语音频率信号Y(n)采用心理声学模型的感知子带划分方法,得到子带划分后的频率系数P(i,mi),i表示子带序号(i=1,2,…,21),mi表示第i个子带的频率系数个数;步骤3:实现情感感知谱特征的计算:在步骤2所得到的每个感知子带频率系数上计算谱特征E(i,j),i表示子带序号(i=1,2,…,21),j=1,2,3,j=1时表示情感熵特征、j=2时表示情感谱谐波倾度、j=3时表示情感谱谐波平坦度;步骤4:实现全局统计特征的计算:对步骤3得到的谱特征E(i,j),对每个谱特征分别计算所有语音帧中的每个子带上的均值、最大值、最小值、中值和标准差5个统计特征,形成语句级全局统计特征G(i,j,s),i=1,2,…,21表示子带序号,j=1,2,3分别表示情感熵特征、情感谱谐波倾度、情感谱谐波平坦度,s=1,2,3,4,5分别代表均值、最大值、最小值、中值和标准差;步骤5:采用SVM分类器进行分类:将步骤4得到的全局统计特征作为特征向量输入到SVM分类器进行情感识别,得到每段语音信号s(n)的类别label。与相关技术相比,本专利技术提供的利用情感感知谱特征进行语音情感识别的方法具有以下有益效果:本方法依据语音心理声学模型原理,对频率信号采用感知子带划分,能精确地描述情感信息在各频率带上的分布特征,采用情感熵特征、情感谱谐波倾度、情感谱谐波平坦度3个谱特征物理量可以精确地区分情感状态。该方法利用了人耳感知机理,有利于去除冗余情感特征;精确的感知子带划分方法可以提高情感特征的有效分辨率,总体提高情感识别率。附图说明图1为本专利技术提供的利用情感感知谱特征进行语音情感识别的方法流程图;图2为本专利技术提供的第3子带的能量值分布;图3为本专利技术提供的各子带情感熵在CASIA上均值分布;图4为本专利技术提供的各子带情感熵在EMODB上均值分布;图5为本专利技术提供的各子带情感谱倾斜率在CASIA上均值分布;图6为本专利技术提供的各子带情感谱倾斜率在EMODB上均值分布;图7为本专利技术提供的各子带情感谱平坦度在CASIA上均值分布;图8为本专利技术提供的各子带情感谱平坦度在EMODB上均值分布。具体实施方式下面以具体实施例结合附图对本专利技术的技术方法做进一步说明:参见图1,本专利技术实施例提供的利用情感感知谱特征进行语音情感识别的方法,可以采用计算机软件技术手段自动进行流程,具体包括以下步骤:步骤1:实现语音信号的预处理和时频变换:对输入语音信号先进行加窗和分帧,帧长为1024,帧移为256,窗函数为汉明窗或汉宁窗。考虑到语音产生过程中会受到声道肌肉伸张和呼吸的影响造成信号的衰减,需要对语音信号进行高频增强。增强的方法是对每帧信号进行预加重操作,预加重过程实际上是使语音信号通过一个高通滤波器得到高频区域的信号,实施中是通过一阶差分方程计算:signal(n)=s(n)-αs(n-1),式中,s(n)是输入的语音信号,Signal(n)是高频增强后的信号,n是采样点序号,α是一个常量,其值为0到1之间,本专利技术实验中取值为0.94。由于语音情感状态在频率域内能较好地体现出区分度,因此,需要通过时频变换将信号转变到频率域,本专利技术使用最常用的快速傅立叶变换完成时频变换,得到语音频率信号Y(n)。步骤2:实现情感感知子带划分:根据语音心理声学模型,人耳具有掩蔽效应,由于低能量信号会被旁边的高能量信号所掩蔽而听不见,若听不见的语音信号作为特征被提取出来的话,则会造成特征冗余造成识别率降低。此外,根据人耳听觉感知机理,对于不同频率段信号感知敏感性具有差异性,一般对低频感知要比高频感知更灵敏。为此,可以提高低频分辨率而降低高频分辨率。本专利技术采用语音压缩中常用的临界子带划分方法对频率信号进行分带,根据Zwicker等人1980年提出的临界子带划分方法,具体实现方法见文献:ZwickerE,TerhardtE.Analyticalexpressionsforcriticalbandrateandcriticalbandwidthasafunctionoffrequency.JournaloftheAcousticalSocietyofAmerica,1980,68(5):1523-1525。将信号在频率上被划分成1~24个临界频带,即Bark域,该文献给出了Bark域的计算方法:Bark=13tan-1(0.76f/1000)+3.5tan-1(f/7500)2,式中f表示信号频率,tan表示正切函数。由于常用的语音情感识别方法中采样率一般为16kHz,其频率带宽为8kHz,本专利技术的实施例中仅使用21个频率子带。根据Bark带和帧级长度(1024样点),每个频率子带的截止样点可通过如下公式换算得到:Cs(i)=fc(i)/(0.5fs)*frameLen,式中,fc(i)表示第i个子带的截止频率,fs表示信号的采样率,此处取0.5fs是因为信号带宽只有采样率一半,frameLen表示帧长,本专利技术实施例计算中fs为16kHz,frameLen为1024。通过感知子带划分得到每帧语音信号P(i,mi),其中mi表本文档来自技高网...

【技术保护点】
1.一种利用情感感知谱特征进行语音情感识别的方法,其特征在于,包括以下步骤:步骤1:实现语音信号的预处理和时频变换:对输入的语音信号s(n)进行加窗分帧,然后对每帧信号采用高通滤波器进行高频信号的增强,再对高频增强后的每帧信号采用快速傅立叶变换方法进行时频变换得到语音频率信号Y(n);步骤2:实现情感感知子带划分:对步骤1中得到的语音频率信号Y(n)采用心理声学模型的感知子带划分方法,得到子带划分后的频率系数P(i,mi),i表示子带序号(i=1,2,…,21),mi表示第i个子带的频率系数个数;步骤3:实现情感感知谱特征的计算:在步骤2所得到的每个感知子带频率系数上计算谱特征E(i,j),i表示子带序号(i=1,2,…,21),j=1,2,3,j=1时表示情感熵特征、j=2时表示情感谱谐波倾度、j=3时表示情感谱谐波平坦度;步骤4:实现全局统计特征的计算:对步骤3得到的谱特征E(i,j),对每个谱特征分别计算所有语音帧中的每个子带上的均值、最大值、最小值、中值和标准差5个统计特征,形成语句级全局统计特征G(i,j,s),i=1,2,…,21表示子带序号,j=1,2,3分别表示情感熵特征、情感谱谐波倾度、情感谱谐波平坦度,s=1,2,3,4,5分别代表均值、最大值、最小值、中值和标准差;步骤5:采用SVM分类器进行分类:将步骤4得到的全局统计特征作为特征向量输入到SVM分类器进行情感识别,得到每段语音信号s(n)的类别label。...

【技术特征摘要】
1.一种利用情感感知谱特征进行语音情感识别的方法,其特征在于,包括以下步骤:步骤1:实现语音信号的预处理和时频变换:对输入的语音信号s(n)进行加窗分帧,然后对每帧信号采用高通滤波器进行高频信号的增强,再对高频增强后的每帧信号采用快速傅立叶变换方法进行时频变换得到语音频率信号Y(n);步骤2:实现情感感知子带划分:对步骤1中得到的语音频率信号Y(n)采用心理声学模型的感知子带划分方法,得到子带划分后的频率系数P(i,mi),i表示子带序号(i=1,2,…,21),mi表示第i个子带的频率系数个数;步骤3:实现情感感知谱特征的计算:在步骤2所得到的每个感知子带频率系数上计算谱特征E(i,j),i表示子带序号(i=1,2,…,21),j=1,2,3,j=1时表示情感熵特征、j=2时表示情感谱谐波倾度、j=3时表示情感谱谐波平坦度;步骤4:...

【专利技术属性】
技术研发人员:姜林李小龙
申请(专利权)人:湖南商学院东华理工大学
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1