一种基于WFST的老年人语音情感识别方法技术

技术编号:16588582 阅读:74 留言:0更新日期:2017-11-18 16:29
本发明专利技术的技术方案包括一种基于WFST的老年人语音情感识别方法,该方法包括:使用WFST分别创建情感声学模型、情感字典、情感语法模型及情感类型转换器,进一步基于声学模型、情感字典、情感语法模型及情感类型转换器构建至少一个WFST图;使用接收器对WFST图的每个状态图进行计算得到声学低的似然度,进一步基于接收器接收数据对WFST图进行情感识别;基于上述所得到的情感识别结果使用多种倒谱特征和基频的结合与情感库进行对比,得到不同情感的情感识别率,进一步,选取最优情感识别率的倒谱特征和基频的结合对对应的情感进行识别。本发明专利技术的有益效果为:相对于现有的情感识别具有更高的识别率,同时能针对不同的情感使用不同的识别方案进行最优识别。

A speech emotion recognition method for the elderly based on WFST

The technical scheme of the invention comprises an elderly speech emotion recognition method based on WFST, the method comprises the following steps: using WFST to create emotional acoustic model, emotion dictionary, grammar model and emotional emotional type converter, further acoustic model, emotion dictionary, emotion and emotion grammar model type converter building at least one WFST map based on; using the receiver each state diagram of WFST graph is obtained by calculating the acoustic likelihood is low, further receiver data on a WFST map based on emotion recognition; combined with the emotion recognition results obtained using a variety of Cepstrum and pitch were compared with the emotional base based on emotion recognition, get different emotion rate further, combined with the selection Cepstrum and pitch optimal emotion recognition rate of recognition of the corresponding emotion. The invention has the advantages of higher recognition rate relative to the existing emotion recognition, and optimal recognition of different emotion recognition schemes according to different emotions.

【技术实现步骤摘要】
一种基于WFST的老年人语音情感识别方法
本专利技术涉及一种基于WFST的老年人语音情感识别方法,属于计算机语音识别领域。
技术介绍
在智能辅助系统研究中,使用者的情感识别是一个比较重要的问题,越来越受到人们的重视,这可能是因为情感是人们通信交流中比较重要的一个方面。对于老年人而言,情感可以帮助他们和外界进行有效的交流,另外,情感是人们所处的环境和心理状态的反映。现有的研究者建立语音情感库常采用模拟语音、诱导语音和自然语音三种方式。模拟语音让专业或非专业人士进行情感模仿进行情感模仿录制,诱导语音是营造适当的环境氛围刺激专业人士或非专业人士进行录音,自然语音是从现实生活中采集真实的自然情感资料。模拟语音的情感成分有时会被夸大,情感自然度和现实真实的情感有较大差距,诱导语音的缺点是无法确定环境对录音者的刺激是否有效,自然语音是人们现实生活中最真实的情感语音,但是它获取方式比较困难,而且还牵涉到很多社会道德问题,目前常采用从影视剧中截取一些自然的情感对话片段的方法对题,但是这种方法的缺点是工作量比较大,而且有时候可能会有音乐背景。WFST:加权有限状态转换机。一个WFST图有一系列的状态,每个状态都要参于运算,在状态之间有连接弧,每个连接弧有一个输入标注、一个输出标注和一个权重。
技术实现思路
针对现有技术的不足,本专利技术的技术方案提供了一种基于WFST的老年人语音情感识别方法,用于实现对老年人的情感。本专利技术的技术方案包括一种基于WFST的老年人语音情感识别方法,其特征在于通过构建WFST网络,对老年人情感进行识别,包括:A.使用WFST分别创建情感声学模型、情感字典、情感语法模型及情感类型转换器,进一步基于声学模型、情感字典、情感语法模型及情感类型转换器构建至少一个WFST图;B.使用接收器对WFST图的每个状态图进行计算得到声学特征的似然度,进一步基于接收器接收数据对WFST图进行情感识别;C.基于所述步骤B得到的情感识别结果使用多种倒谱特征和基频的结合与情感库进行对比,得到不同情感的情感识别率,进一步,选取最优情感识别率的倒谱特征和基频的结合对对应的情感进行识别。根据所述的基于WFST的老年人语音情感识别方法,步骤A还包括:S21,使用公式得到从情感类型受到G约束的情感类型映射的转换器,其中L表示情感字典,G表示情感语法模型,用于表示WFST中的运算;S22,使用公式得到依赖于内容的情感类型到G受约束的情感类型的转换器,其中C表示从依赖于内容的情感类型到不依赖于情感类型的转换器;S23,使用计算得到分布到受G约束的情感映射,进一步,通过情感映射构建对应的WFST图。根据所述的基于WFST的老年人语音情感识别方法,步骤B还包括:S31,获取需要识别的声源,解析获取对应声源的多个数据帧,进一步得到与数据帧对应的WFST状态图;S32,对对应的多个WFST图进行进行搜索计算,其中的搜索公式为其中的V为接收器,用于对WFST图的每个状态图进行接收;S33,对所述步骤S32的搜索计算执行修剪策略,包括对S进行多次修剪,并使用B对S的状态图和弧的子集进行接收;S34,使用Viterbi算法对WFST图进行识别,其中的识别公式为进一步通过使用B最终找到最优的路径,完成对声源的情感识别。根据所述的基于WFST的老年人语音情感识别方法,步骤C通过接收器接收数据对WFST图进行情感识别,包括:使用倒谱特征基于WFST图形识别对情感库中多个不同类型情感进行进行识别,使用多种基频基于WFST图形识别对情感库中多个不同类型情感进行进行识别,以及,使用倒谱特征与基频结合基于WFST图形识别对情感库中多个不同类型情感进行进行识别,进一步,选取识别对应类型的情感识别率最高的倒谱特征和基频的结合对对应的情感进行识别作为最终的识别结果。根据所述的基于WFST的老年人语音情感识别方法,步骤C还包括:其中倒谱特征包括MFCC、PLPCC及FBANK,其中的情感库为OPSED情感库。本专利技术的有益效果为:相对于现有的情感识别具有更高的识别率,同时能针对不同的情感使用不同的识别方案进行最优识别。附图说明图1所示为根据本专利技术实施方式的流程图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本专利技术进行详细描述。本专利技术的基于WFST的老年人语音情感识别方法适用于对老年人的情感识别。图1所示为根据本专利技术实施方式的流程图。其具体如下A~C所示:A.使用WFST分别创建情感声学模型、情感字典、情感语法模型及情感类型转换器,进一步基于声学模型、情感字典、情感语法模型及情感类型转换器构建至少一个WFST图。因为WFST可以用来表示声学模型,字典和语法模型,于是我们首先使用WFST分别构建情感声学模型,情感字典和情感语法模型。假设L表示情感字典,G表示情感语法模型,另外是WFST的一个运算,于是我们可以使用表示从情感类型到受G约束的情感类型映射的转换器。C代表从依赖于内容的情感类型到不依赖于情感类型的转换器,于是,我们可以使用表示从依赖于内容的情感类型到受G约束的情感类型的转换器。假设H表示情感声学模型,我们可以使用表示从分布到受G约束的情感类型的映射。于是我们得到了一个由构成的一个WFST图B.使用接收器对WFST图的每个状态图进行计算得到声学低的似然度,进一步基于接收器接收数据对WFST图进行情感识别;在WFST图上进行情感识别如下:一个WFST图有一系列的状态,每个状态都要参于运算,在状态之间有连接弧,每个连接弧有一个输入标注、一个输出标注和一个权重。在HCLG中,输入标注是依赖于情感声学模型状态的标识符,输出标注代表现有的情感类型。假设要对一句有N帧的一句话进行情感识别,将会在WFST图被识别为最有可能的情感类型和在相应的状态层进行对齐。具体的识别过程如下:构建的WFST有N+1个状态,使用一个连接弧表示一个依赖于内容的情感声学模型状态。这些弧上的运算将会得到声学低的似然度,把这个接收器定义为V,那么就有其中,对这个句子通过在图上进行搜索完成识别,将会有比HCLG多N+1倍的状态要进行搜索,识别问题就等同于通过S找到最好的路径。对这个最好路径的输入符号序列代表状态层的对齐句子。在实际中,我们使用了修剪策略不需要对S进行完全的搜索。令B代表的子集,通过不断的反复的修剪可以使B包含了S的状态和弧的子集。然后使用Viterbi算法在WFST图上进行识别,通过使用B最终找到最好的路径,即完成了对该句话的情感识别。C.基于所述步骤B得到的情感识别结果使用多种倒谱特征和基频的结合与情感库进行对比,得到不同情感的情感识别率,进一步,选取最优情感识别率的倒谱特征和基频的结合对对应的情感进行识别。本专利技术的技术方案进一步公开了使用不同的倒谱特征与基频的结合对情感进行识别。使用倒谱特征基于WFST对OPSED情感库进行识别率,倒谱特征包括MFCC,PLPCC,FBANK,表1是使用倒谱特征得到的5种情感识别结果。MFCCPLPCCFBANK生气81.585.089.5害怕28.534.528.0高兴75.574.083.5中性77.072.086.0悲伤42.540.563.0平均值61.061.270.0表1从表1可以看出,在生气、高兴、本文档来自技高网...
一种基于WFST的老年人语音情感识别方法

【技术保护点】
一种基于WFST的老年人语音情感识别方法,其特征在于通过构建WFST网络,对老年人情感进行识别,包括:A.使用WFST分别创建情感声学模型、情感字典、情感语法模型及情感类型转换器,进一步基于声学模型、情感字典、情感语法模型及情感类型转换器构建至少一个WFST图;B.使用接收器对WFST图的每个状态图进行计算得到声学特征的似然度,进一步基于接收器接收数据对WFST图进行情感识别;C.基于所述步骤B得到的情感识别结果使用多种倒谱特征和基频的结合与情感库进行对比,得到不同情感的情感识别率,进一步,选取最优情感识别率的倒谱特征和基频的结合对对应的情感进行识别。

【技术特征摘要】
1.一种基于WFST的老年人语音情感识别方法,其特征在于通过构建WFST网络,对老年人情感进行识别,包括:A.使用WFST分别创建情感声学模型、情感字典、情感语法模型及情感类型转换器,进一步基于声学模型、情感字典、情感语法模型及情感类型转换器构建至少一个WFST图;B.使用接收器对WFST图的每个状态图进行计算得到声学特征的似然度,进一步基于接收器接收数据对WFST图进行情感识别;C.基于所述步骤B得到的情感识别结果使用多种倒谱特征和基频的结合与情感库进行对比,得到不同情感的情感识别率,进一步,选取最优情感识别率的倒谱特征和基频的结合对对应的情感进行识别。2.根据权利要求1所述的基于WFST的老年人语音情感识别方法,所述步骤A还包括:S21,使用公式得到从情感类型受到G约束的情感类型映射的转换器,其中L表示情感字典,G表示情感语法模型,用于表示WFST中的运算;S22,使用公式得到依赖于内容的情感类型到G受约束的情感类型的转换器,其中C表示从依赖于内容的情感类型到不依赖于情感类型的转换器;S23,使用计算得到分布到受G约束的情感映射,进一步,通过情感映射构建对应的WFST图。3.根据权利要求1所述的基于WFST的老年人语音情感识别方法,所述步骤B还包括:S...

【专利技术属性】
技术研发人员:李威杨继臣杨忠明常亚萍
申请(专利权)人:广东科学技术职业学院
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1