当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于GMM Token配比相似度校正得分的说话人识别方法技术

技术编号:10810625 阅读:180 留言:0更新日期:2014-12-24 16:10
本发明专利技术公开了一种基于GMM Token配比相似度校正得分的说话人识别方法,该方法通过计算测试语音和目标说话人训练语音在UBM上的GMM Token配比相似度,利用相似度对测试语音在所有目标说话人模型上的似然得分进行加权校正,使得校正后的似然得分更具可比性;即在输出得分之前,对得分的可靠性进行评估,对那些不可靠的得分进行惩罚,从而降低部分冒认者的得分,提高系统识别性能。

【技术实现步骤摘要】
一种基于GMMToken配比相似度校正得分的说话人识别方法
本专利技术属于语音识别
,具体涉及一种基于GMMToken配比相似度校正得分的说话人识别方法。
技术介绍
说话人识别技术是利用信号处理和模式识别的方法,根据说话人的语音识别其身份的技术,主要包括两个步骤:说话人模型训练和语音测试。目前,说话人语音识别采用的主要特征包括梅尔倒谱系数(MFCC)、线性预测编码倒谱系数(LPCC)、感觉加权的线性预测系数(PLP)。说话人语音识别的算法主要包括矢量量化法(VQ)、通用背景模型法(GMM-UBM)、支持向量机法(SVM)等等。其中,GMM-UBM在整个说话人语音识别领域应用非常广泛。在基于GMM-UBM说话人识别方法的测试语音识别阶段,首先计算测试语音在所有说话人模型上的似然得分,然后将取得最高得分的目标说话人模型作为测试语音的说话人。然而由于测试语音的得分来源不同,导致测试得分并不具备绝对的可比性,因此传统的方法得出的识别结果可靠性不高。
技术实现思路
针对现有技术所存在的上述技术问题,本专利技术提供了一种基于GMMToken配比相似度校正得分的说话人识别方法,通过利用测试语音和目标说话人的训练语料的GMMToken配比相似度对测试语音在该目标模型上的得分作加权校正,降低部分冒认者的得分,提高系统的识别性能。一种基于GMMToken配比相似度校正得分的说话人识别方法,包括如下步骤:(1)利用一定数量的非目标说话人的语音特征训练生成一个与目标说话人无关的通用背景模型UBM(UniversalBackgroundModel);(2)针对任一个目标说话人,利用其训练语音特征在通用背景模型UBM上自适应生成对应的说话人模型GMM(GaussianMixtureModel),并计算其训练语音特征在通用背景模型UBM上的GMMToken配比向量GTR;依此遍历所有目标说话人;(3)接收测试语音,计算测试语音特征在每一目标说话人对应的说话人模型GMM上的似然得分以及在通用背景模型UBM上的GMMToken配比向量GTR;(4)计算测试语音特征与每一目标说话人训练语音特征关于GMMToken配比向量GTR之间的相似度,根据相似度对所有似然得分进行加权校正;对校正后的最高似然得分进行阈值过滤后,识别确定该最高似然得分所对应的目标说话人即为测试语音的真正说话人。所述的步骤(1)中采用EM算法(Expectation-maximizationalgorithm,简称期望最大算法)训练生成通用背景模型UBM,其为混合阶数为M的高斯混合模型,并以λUBM表示,M为大于1的自然数。所述的步骤(2)中,针对任一个目标说话人,提取其训练语音中的短时语音特征,根据该语音特征利用MAP算法(最大后验概率算法)在通用背景模型UBM上自适应均值生成对应的说话人模型GMM,其为混合阶数为M的高斯混合模型;对于N个目标说话人对应的说话人模型GMM以λt1,λt2,…,λtN表示,N为大于1的自然数。所述的步骤(2)和步骤(3)中,计算特定语音特征在通用背景模型UBM上的GMMToken配比向量GTR的具体过程如下;特定语音为训练语音或测试语音,特定语音特征以X={x1,x2,...,xn}表示,xi为特定语音的第i帧特征向量;首先,将特定语音特征转换成一个GMMToken序列T如下:T={t1,t2,...,tn}ti∈{1,2,...,M}其中:ti为GMMToken序列T中第i个Token元素,其取值为通用背景模型UBM中的一高斯分量标号,M为通用背景模型UBM的混合阶数,i为自然数且1≤i≤n,n为特定语音的总特征帧数;然后,根据以下公式统计通用背景模型UBM中每一个高斯分量标号在GMMToken序列T中出现的频率,即GMMToken配比分量fm;其中:Nm为高斯分量标号m在GMMToken序列T中出现的次数,fm为高斯分量标号m在GMMToken序列T中出现的频率,m为自然数且1≤m≤M;最后,根据GMMToken配比分量fm,构建特定语音特征在通用背景模型UBM上的GMMToken配比向量GTR如下:GTR=[f1,f2,...,fM]T对于N个目标说话人的训练语音特征,则依据上述流程计算出对应的GMMToken配比向量GTRt1,GTRt2,…,GTRtN;对于任一测试语音特征Xe,则依据上述流程计算出对应的GMMToken配比向量GTRe。所述的Token元素ti表示为最有可能生成对应帧特征向量xi的高斯分量标号,其表达式如下:其中:ωm为通用背景模型UBM中第m个高斯分量对应的权重,pm(xi)为特征向量xi在通用背景模型UBM中第m个高斯分量上的似然得分,即特征向量xi由通用背景模型UBM中第m个高斯分量生成的概率。所述的步骤(4)中根据相似度通过以下关系式对所有似然得分进行加权校正:其中:对于任一目标说话人tgi,GTRSetgi为测试语音特征与该目标说话人训练语音特征关于GMMToken配比向量GTR之间的相似度,Scoretgi为测试语音特征在该目标说话人对应的说话人模型GMM上的似然得分,ThresholdGTRS为设定的相似度阈值,Scorertgi为校正后的似然得分,c为设定的惩罚因子。所述的相似度采用测试语音特征的GMMToken配比向量GTR与目标说话人训练语音特征的GMMToken配比向量GTR之间的夹角余弦值,或采用测试语音特征的GMMToken配比向量GTR与目标说话人训练语音特征的GMMToken配比向量GTR之间的欧式距离。当所述的相似度采用测试语音特征的GMMToken配比向量GTR与目标说话人训练语音特征的GMMToken配比向量GTR之间的夹角余弦值时,则惩罚因子c即采用该夹角余弦值。所述的步骤(4)中使校正后的最高似然得分与预设的得分阈值进行比较,若校正后的最高似然得分小于等于该得分阈值,则表明测试语音的真正说话人不属于任一目标说话人;若校正后的最高似然得分大于该得分阈值,则确定该最高似然得分所对应的目标说话人为测试语音的真正说话人。本专利技术方法通过计算测试语音和特定说话人训练语音在UBM上的GMMToken配比相似度,利用相似度对所有特定说话人模型上的似然得分进行加权校正,使得校正后的似然得分更具可比性;即在输出得分之前,对得分的可靠性进行评估,对那些不可靠的得分进行惩罚,从而降低部分冒认者的得分,提高系统识别性能。附图说明图1为本专利技术方法的执行流程示意图。具体实施方式为了更为具体地描述本专利技术,下面结合附图及具体实施方式对本专利技术的技术方案进行详细说明。本实施方式中的实验数据采用的是中文情感语音数据库(MASC@CCNT),该数据库是在安静的环境下采用奥林巴斯DM-20录音笔录制的,该数据库由68个母语为汉语的68个说话人组成,其中男性说话人45人,女性说话人23人。本实施方式所提供的识别方法中,可以有多种选择,本实施例中为了便于描述以及提供具体的测试结果,选取了5种情感状态,分别是中性、生气、高兴、愤怒和悲伤,即每个说话人共有5种情感状态下的语音。每个说话人在中性情感下朗读2段段落(约30s录音长度)并朗读5个单词和20句语句各3遍,在其余每种情感状态下各朗读5个单词和20句语句各3本文档来自技高网...
一种<a href="http://www.xjishu.com/zhuanli/21/201410464562.html" title="一种基于GMM Token配比相似度校正得分的说话人识别方法原文来自X技术">基于GMM Token配比相似度校正得分的说话人识别方法</a>

【技术保护点】
一种基于GMM Token配比相似度校正得分的说话人识别方法,包括如下步骤:(1)利用一定数量的非目标说话人的语音特征训练生成一个与目标说话人无关的通用背景模型UBM;(2)针对任一个目标说话人,利用其训练语音特征在通用背景模型UBM上自适应生成对应的说话人模型GMM,并计算其训练语音特征在通用背景模型UBM上的GMM Token配比向量GTR;依此遍历所有目标说话人;(3)接收测试语音,计算测试语音特征在每一目标说话人对应的说话人模型GMM上的似然得分以及在通用背景模型UBM上的GMM Token配比向量GTR;(4)计算测试语音特征与每一目标说话人训练语音特征关于GMM Token配比向量GTR之间的相似度,根据相似度对所有似然得分进行加权校正;对校正后的最高似然得分进行阈值过滤后,识别确定该最高似然得分所对应的目标说话人即为测试语音的真正说话人。

【技术特征摘要】
1.一种基于GMMToken配比相似度校正得分的说话人识别方法,包括如下步骤:(1)利用一定数量的非目标说话人的语音特征训练生成一个与目标说话人无关的通用背景模型UBM;(2)针对任一个目标说话人,利用其训练语音特征在通用背景模型UBM上自适应生成对应的说话人模型GMM,并计算其训练语音特征在通用背景模型UBM上的GMMToken配比向量GTR;依此遍历所有目标说话人;(3)接收测试语音,计算测试语音特征在每一目标说话人对应的说话人模型GMM上的似然得分以及在通用背景模型UBM上的GMMToken配比向量GTR;(4)计算测试语音特征与每一目标说话人训练语音特征关于GMMToken配比向量GTR之间的相似度,根据相似度对所有似然得分进行加权校正;对校正后的最高似然得分进行阈值过滤后,识别确定该最高似然得分所对应的目标说话人即为测试语音的真正说话人。2.根据权利要求1所述的说话人识别方法,其特征在于:所述的步骤(1)中采用EM算法训练生成通用背景模型UBM,其为混合阶数为M的高斯混合模型,并以λUBM表示,M为大于1的自然数。3.根据权利要求1所述的说话人识别方法,其特征在于:所述的步骤(2)中,针对任一个目标说话人,提取其训练语音中的短时语音特征,根据该语音特征利用MAP算法在通用背景模型UBM上自适应均值生成对应的说话人模型GMM,其为混合阶数为M的高斯混合模型;对于N个目标说话人对应的说话人模型GMM以λt1,λt2,…,λtN表示,M和N均为大于1的自然数。4.根据权利要求1所述的说话人识别方法,其特征在于:所述的步骤(2)和步骤(3)中,计算特定语音特征在通用背景模型UBM上的GMMToken配比向量GTR的具体过程如下;特定语音为训练语音或测试语音,特定语音特征以X={x1,x2,...,xn}表示,xi为特定语音的第i帧特征向量;首先,将特定语音特征转换成一个GMMToken序列T如下:T={t1,t2,...,tn}ti∈{1,2,...,M}其中:ti为GMMToken序列T中第i个Token元素,其取值为通用背景模型UBM中的一高斯分量标号,M为通用背景模型UBM的混合阶数,i为自然数且1≤i≤n,n为特定语音的总特征帧数;然后,根据以下公式统计通用背景模型UBM中每一个高斯分量标号在GMMToken序列T中出现的频率,即GMMToken配比分量fm;其中:Nm为高斯分量标号m在GMMToken序列T中出现的次数,fm为高斯分量标号m...

【专利技术属性】
技术研发人员:杨莹春吴朝晖邓立才
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1