当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于情感GMM模型权重合成的情感说话人识别方法技术

技术编号:9463625 阅读:134 留言:0更新日期:2013-12-19 01:20
本发明专利技术公开了一种基于情感GMM模型权重合成的情感说话人识别方法,步骤如下:(1)针对每个说话人,建立说话人的中性GMM模型,并依据对应的中性情感权重参数变换模型,得到不同的情感GMM模型;(2)采集待识别说话人的语音并提取语音特征,将得到的语音特征在步骤(1)中得到的所有情感GMM模型中进行得分计算;(3)将所有得分进行比较,得分最高的情感GMM模型所对应的说话人即为待识别说话人。本发明专利技术基于情感GMM模型权重合成的情感说话人识别方法,通过建立说话人的中性情感权重模型,在仅仅采集说话人中性语音的基础上,提高对说话人情感变化识别的鲁棒性,提高说话人识别的准确性。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于情感GMM模型权重合成的情感说话人识别方法,步骤如下:(1)针对每个说话人,建立说话人的中性GMM模型,并依据对应的中性情感权重参数变换模型,得到不同的情感GMM模型;(2)采集待识别说话人的语音并提取语音特征,将得到的语音特征在步骤(1)中得到的所有情感GMM模型中进行得分计算;(3)将所有得分进行比较,得分最高的情感GMM模型所对应的说话人即为待识别说话人。本专利技术基于情感GMM模型权重合成的情感说话人识别方法,通过建立说话人的中性情感权重模型,在仅仅采集说话人中性语音的基础上,提高对说话人情感变化识别的鲁棒性,提高说话人识别的准确性。【专利说明】一种基于情感G圖模型权重合成的情感说话人识别方法
本专利技术涉及信号处理和模式识别,更具体地,本专利技术涉及一种基于情感GMM模型权重合成的情感说话人识别方法。
技术介绍
说话人识别技术是指利用信号处理技术和模式识别方法,通过采集说话人的语音来识别其身份的技术,主要包括两个步骤:说话人模型训练和测试语音识别。情感说话人识别是为了解决注册说话人的训练语音和测试语音存在情感不一致引起的说话人识别系统性能下降问题。本专利提出的方法就是通过建立说话人的虚拟情感模型,提高系统的识别性能。目前,说话人识别采用的主要短时语音特征包括梅尔倒谱系数(MFCC),线性预测编码倒谱系数(LPCC),感觉加权的线性预测系数(PLP)。说话人识别的算法主要包括矢量量化(VQ),通用背景模型方法(GMM-UBM),支持向量机(SVM)等等。其中,GMM-UBM在整个说话人识别领域应用非常广泛。在情感说话人识别中,训练语音通常为中性情感语音,因为在现实应用中,一般情况下用户只会提供中性发音下的语音训练自己的模型。而测试时,语音可能包括各种情感的语音,如高兴,悲伤等。然而,传统的说话人识别系统并不能处理这种训练和测试环境的失配。
技术实现思路
本专利技术提供了一种基于情感GMM模型权重合成的情感说话人识别方法,通过建立说话人的中性情感权重模型,在仅仅采集说话人中性语音的基础上,提高对说话人情感变化识别的鲁棒性,提高说话人识别的准确性。一种基于情感GMM模型权重合成的情感说话人识别方法,步骤如下:(I)针对每个说话人,建立说话人的中性GMM模型,并依据对应的中性情感权重参数变换模型,得到不同的情感GMM模型;本专利技术所说的情感可以有多种选择,例如高兴、愤怒、惊慌、悲伤、压抑等,选择的情感的种类越多,则最终的识别结果越精确,但相应的计算量也会增加,因此,使用时可以依据需要选择适当数目的情感种类,相应每种情感建立情感GMM模型。(2)采集待识别说话人的语音并提取语音特征,将得到的语音特征在步骤(I)中得到的所有情感GMM模型中进行得分计算;该步骤中待识别的说话人均已在步骤(I)中建立相应的中性GMM模型以及情感GMM模型,即对于某一个待识别说话人来说,如果在步骤(I)中没有建立过相应的中性GMM模型以及情感GMM模型,则不能对该待识别说话人进行识别。(3)将所有得分进行比较,得分最高的情感GMM模型所对应的说话人即为待识别说话人。每个说话人的中性模型与情感模型之间的权重之间存在映射关系,利用这种映射关系,即可通过中性模型直接计算得到情感模型,中性情感权重参数变换模型的建立方法可以采用现有技术中的各种算法,只要能够在中性模型与情感模型之间建立起映射关系即可,优选地,所述中性情感权重参数变换模型利用径向基神经网络或者稀疏表达建立。作为优选,所述中性情感权重参数变换模型的建立过程,具体包括以下步骤:1-1、在开发库中,提取所有情感状态下的不同说话人的短时语音特征,通过EM算法训练出情感无关的高斯混合背景模型;1-2、利用该高斯混合背景模型,通过自适应均值和自适应权重,得到开发库中每个说话人的中性GMM模型;1-3、利用步骤1-2的中性GMM模型,通过自适应权重的方法,得到各种情感状态下的情感GMM模型;1-4、利用步骤1-2的中性GMM模型中的权重和步骤1_3的情感GMM模型中的权重,训练径向基神经网络或者稀疏表达模型,得到中性情感权重参数变换模型。本专利技术中的开发库是指,在实现本专利技术之前,先任意选取若干说话人组成开发库,后续识别过程中的说话人与开发库中的说话人不一定相同,即可以相同,也可以不同。作为优选,采用径向基神经网络得到中性情感权重参数变换模型时,具体包括以下步骤:在开发库中,利用每个说话人的中性GMM模型权重序列以及该说话人对应的每种情感GMM模型权重序列,通过正交最小二乘法训练得到GMM模型权重序列与每种情感GMM模型权重序列之间的映射关系,即中性情感权重参数变换模型。作为优选,采用稀疏表达得到中性情感权重参数变换模型时,具体包括以下步骤:在开发库中,利用每个说话人的中性GMM模型权重序列以及该说话人对应的每种情感GMM模型权重序列,得到中性情感对齐字典,即中性情感权重参数变换模型。本专利技术基于情感GMM模型权重合成的情感说话人识别方法,通过建立说话人的中性情感权重模型,在仅仅采集说话人中性语音的基础上,提高对说话人情感变化识别的鲁棒性,提高说话人识别的准确性。【专利附图】【附图说明】图1是本专利技术基于情感GMM模型权重合成的情感说话人识别方法的流程图;图2为本专利技术基于情感GMM模型权重合成的情感说话人识别方法中径向基神经网络的结构图;图3为本专利技术基于情感GMM模型权重合成的情感说话人识别方法中中性情感对齐字典的结构图。【具体实施方式】下面结合附图,对本专利技术基于情感GMM模型权重合成的情感说话人识别方法做详细描述。本专利技术中的实验数据中采用的是中文情感语音数据库(MASC),该数据库是在安静的环境下采用奥林巴斯DM-20录音笔录制的,该数据库由68个母语为汉语的68个说话人组成,其中男性说话人45人,女性说话人23人。本专利技术所提供的识别方法中,可以有多种选择,本实施例中为了便于描述以及提供具体的测试结果,选取了 5种情感状态,分别是中性、生气、高兴、愤怒和悲伤,即每个说话人共有5种情感状态下的语音。每个说话人在中性情感下朗读2段段落(约30s录音长度)并朗读5个单词和20句语句各3遍,在其余每种情感状态下各朗读5个单词和20句语句各3遍,针对每个说话人,在中性以及其他情感状态下朗读的单词和语句都相同;针对所有说话人,朗读的单词和语句都相同。本专利技术中的测试数据是在联想工作站进行的,其配置为:CPU E5420,主频2.5GHz,内存为4G,实验是在Visual Studio环境下实现的。如图1所示,一种基于情感GMM模型权重合成的情感说话人识别方法,步骤如下:(I)针对每个说话人,建立说话人的中性GMM模型,并依据对应的中性情感权重参数变换模型,得到不同的情感GMM模型;在测试过程中,任意选取若干个说话人的语音作为开发库,通常情况下,选取的说话人个数不少于10个,例如选取前18个说话人的语音作为开发库,该开发库中记录前18个说话人在中性以及其余五种情感状态下的所有语音,训练得到UBM模型(即现有技术中的高斯混合背景模型)。 在测试过程中,除去开发库中的说话人,将其余说话人组成评测集,在评测集中,每个说话人的中性GMM模型利用开发库中训练得到的UBM模型,通过本文档来自技高网
...

【技术保护点】
一种基于情感GMM模型权重合成的情感说话人识别方法,其特征在于,步骤如下:(1)针对每个说话人,建立说话人的中性GMM模型,并依据对应的中性情感权重参数变换模型,得到不同的情感GMM模型;(2)采集待识别说话人的语音并提取语音特征,将得到的语音特征在步骤(1)中得到的所有情感GMM模型中进行得分计算;(3)将所有得分进行比较,得分最高的情感GMM模型所对应的说话人即为待识别说话人。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨莹春陈力吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1