一种基于GMM Token配比相似度校正得分的说话人识别方法技术

技术编号：10810625 阅读：180 留言：0更新日期：2014-12-24 16:10

本发明专利技术公开了一种基于GMM Token配比相似度校正得分的说话人识别方法，该方法通过计算测试语音和目标说话人训练语音在UBM上的GMM Token配比相似度，利用相似度对测试语音在所有目标说话人模型上的似然得分进行加权校正，使得校正后的似然得分更具可比性；即在输出得分之前，对得分的可靠性进行评估，对那些不可靠的得分进行惩罚，从而降低部分冒认者的得分，提高系统识别性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于GMMToken配比相似度校正得分的说话人识别方法
本专利技术属于语音识别
，具体涉及一种基于GMMToken配比相似度校正得分的说话人识别方法。
技术介绍
说话人识别技术是利用信号处理和模式识别的方法，根据说话人的语音识别其身份的技术，主要包括两个步骤：说话人模型训练和语音测试。目前，说话人语音识别采用的主要特征包括梅尔倒谱系数(MFCC)、线性预测编码倒谱系数(LPCC)、感觉加权的线性预测系数(PLP)。说话人语音识别的算法主要包括矢量量化法(VQ)、通用背景模型法(GMM-UBM)、支持向量机法(SVM)等等。其中，GMM-UBM在整个说话人语音识别领域应用非常广泛。在基于GMM-UBM说话人识别方法的测试语音识别阶段，首先计算测试语音在所有说话人模型上的似然得分，然后将取得最高得分的目标说话人模型作为测试语音的说话人。然而由于测试语音的得分来源不同，导致测试得分并不具备绝对的可比性，因此传统的方法得出的识别结果可靠性不高。
技术实现思路
针对现有技术所存在的上述技术问题，本专利技术提供了一种基于GMMToken配比相似度校正得分的说话人识别方法，通过利用测试语音和目标说话人的训练语料的GMMToken配比相似度对测试语音在该目标模型上的得分作加权校正，降低部分冒认者的得分，提高系统的识别性能。一种基于GMMToken配比相似度校正得分的说话人识别方法，包括如下步骤：(1)利用一定数量的非目标说话人的语音特征训练生成一个与目标说话人无关的通用背景模型UBM(UniversalBackgroundModel)；(2)针对任一个目标说话人，利...
一种<a href="http://www.xjishu.com/zhuanli/21/201410464562.html" title="一种基于GMM Token配比相似度校正得分的说话人识别方法原文来自X技术">基于GMM Token配比相似度校正得分的说话人识别方法</a>

【技术保护点】
一种基于GMM Token配比相似度校正得分的说话人识别方法，包括如下步骤：(1)利用一定数量的非目标说话人的语音特征训练生成一个与目标说话人无关的通用背景模型UBM；(2)针对任一个目标说话人，利用其训练语音特征在通用背景模型UBM上自适应生成对应的说话人模型GMM，并计算其训练语音特征在通用背景模型UBM上的GMM Token配比向量GTR；依此遍历所有目标说话人；(3)接收测试语音，计算测试语音特征在每一目标说话人对应的说话人模型GMM上的似然得分以及在通用背景模型UBM上的GMM Token配比向量GTR；(4)计算测试语音特征与每一目标说话人训练语音特征关于GMM Token配比向量GTR之间的相似度，根据相似度对所有似然得分进行加权校正；对校正后的最高似然得分进行阈值过滤后，识别确定该最高似然得分所对应的目标说话人即为测试语音的真正说话人。

【技术特征摘要】
1.一种基于GMMToken配比相似度校正得分的说话人识别方法，包括如下步骤：(1)利用一定数量的非目标说话人的语音特征训练生成一个与目标说话人无关的通用背景模型UBM；(2)针对任一个目标说话人，利用其训练语音特征在通用背景模型UBM上自适应生成对应的说话人模型GMM，并计算其训练语音特征在通用背景模型UBM上的GMMToken配比向量GTR；依此遍历所有目标说话人；(3)接收测试语音，计算测试语音特征在每一目标说话人对应的说话人模型GMM上的似然得分以及在通用背景模型UBM上的GMMToken配比向量GTR；(4)计算测试语音特征与每一目标说话人训练语音特征关于GMMToken配比向量GTR之间的相似度，根据相似度对所有似然得分进行加权校正；对校正后的最高似然得分进行阈值过滤后，识别确定该最高似然得分所对应的目标说话人即为测试语音的真正说话人。2.根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤(1)中采用EM算法训练生成通用背景模型UBM，其为混合阶数为M的高斯混合模型，并以λUBM表示，M为大于1的自然数。3.根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤(2)中，针对任一个目标说话人，提取其训练语音中的短时语音特征，根据该语音特征利用MAP算法在通用背景模型UBM上自适应均值生成对应的说话人模型GMM，其为混合阶数为M的高斯混合模型；对于N个目标说话人对应的说话人模型GMM以λt1,λt2,…,λtN表示，M和N均为大于1的自然数。4.根据权利要求1所述的说话人识别方法，其特征在于：所述的步骤(2)和步骤(3)中，计算特定语音特征在通用背景模型UBM上的GMMToken配比向量GTR的具体过程如下；特定语音为训练语音或测试语音，特定语音特征以X＝{x1,x2,...,xn}表示，xi为特定语音的第i帧特征向量；首先，将特定语音特征转换成一个GMMToken序列T如下：T＝{t1,t2,...,tn}ti∈{1,2,...,M}其中：ti为GMMToken序列T中第i个Token元素，其取值为通用背景模型UBM中的一高斯分量标号，M为通用背景模型UBM的混合阶数，i为自然数且1≤i≤n，n为特定语音的总特征帧数；然后，根据以下公式统计通用背景模型UBM中每一个高斯分量标号在GMMToken序列T中出现的频率，即GMMToken配比分量fm；其中：Nm为高斯分量标号m在GMMToken序列T中出现的次数，fm为高斯分量标号m...

【专利技术属性】
技术研发人员：杨莹春，吴朝晖，邓立才，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人