当前位置: 首页 > 专利查询>清华大学专利>正文

用于说话人识别的多背景模型建立方法技术

技术编号:3936524 阅读:381 留言:0更新日期:2012-04-11 18:40
用于说话人识别的多背景模型建立方法涉及一种说话人识别中背景模型建模方法,其特征在于所述方法首先根据语音的声道长度弯折系数对训练数据进行划分,每组数据分别训练UBM模型,然后由每个背景模型自适应得到目标说话人GMM模型,得到多组GMM和UBM模型,说话人识别时对测试数据,由每组GMM和UBM模型计算对数似然比分数,最后从中选取最小的一个作为分数输出。本发明专利技术可对背景模型进行细致刻画,从而提高说话人识别的准确率。

【技术实现步骤摘要】

本专利技术属于语音识别领域,具体地说,涉及一种多背景模型建立方法,可用于说话 人识别。
技术介绍
说话人识别是指使用机器从一段语音信号中识别出其说话人的身份信息。说话人 识别技术主要用于基于语音的身份确认、语音侦听、法庭物证鉴定等领域。说话人识别的方法主要包括VQ(矢量量化)、GMM_UBM(高斯混合模型-通用背景 模型)、SVM(支持矢量机)等等。其中GMM-UBM实现简单且性能优良,在整个说话人识别领 域应用非常广泛。在GMM-UBM系统中,UBM描述了一般人的特征分布,而GMM描述了目标说话人的特 征分布。在训练阶段,UBM由大量人的数据训练得到一个无偏向的模型,GMM由目标说话人 的数据训练偏向目标说话人的模型;在测试阶段,对于未知语音,分别由GMM和UBM给出对 数似然度,然后两者相减得到对数似然比分数,进而进行说话人识别。通常意义上讲,UBM应该是通用的不偏向任何人的模型,但是实验表明,选择和目 标说话人相近的数据训练得到的UBM性能更好,比如通常采用的性别相关的UBM,对男声和 女生分别训练UBM,比性别无关的UBM性能更好。显然,按性别对所有说话人进行划分是一种自然而外在的划分,对于语音信号来 讲,这种划分不一定准确。首先,有的男声声音可能更像女声,而有的女声声音可能更像男 声,应该按照声音去划分,而不是简单的按照说话人的性别划分;其次,把所有说话人分成 两类仍然比较粗糙,可能分成多类更有利于说话人识别。
技术实现思路
为了解决现有GMM-UBM系统的不足,本专利技术提供一种根据说话人声道长度进行多 背景模型建模的方法。在背景模型训练阶段,首先通过语音计算出说话人的声道长度,然后 按照声道长度将所有训练UBM的语音分成多类,每类训练一个UBM。在说话人模型训练阶 段,采用目标说话人语音,从每一个UBM自适应得到一个GMM,形成多组GMM和UBM。在识别 阶段,对于测试语音,分别由每一组GMM和UBM,计算得到对数似然比分数,最后从多个分数 中选择最小值进行说话人识别。本专利技术采用并行数字集成电路实现,等错率相对降低17%。本专利技术的特征在于所述方法是在数字集成电路芯片中按以下步骤实现的步骤(1)采用Baum-Welch算法,用训练通用背景模型UBM的所有数据训练一个 高斯混合模型GMM A0;步骤(2)求取每段语音的声道长度弯折系数,具体做法为步骤(2. 1)声道长度弯折系数α从0.88以步长0. 02变化到1.12,对信号频谱 进行“弯折”,设弯折前后的频率为f,fa,频谱的低通和高通截止频率为f\,fu,则弯折公式 为<formula>formula see original document page 5</formula>其中<formula>formula see original document page 5</formula>步骤(2. 2)对步骤(2. 1)中每个弯折系数对应的频谱求取Mel频率倒谱系数 MFCC特征CT,搜索使所述特征对模型Aci的似然度最大的弯折系数<formula>formula see original document page 5</formula>α *即为该段语音的声道长度弯折系数;步骤(3)将训练UBM的数据按声道长度弯折系数分成8份,其中α * = 0. 88的 为第1份,α * = 0. 90的为第2份,α * = 0. 92的为第3份,α * = 0. 94的为第4份,α * =0.96,0.98 的为第 5 份,α* = 1.00,1.02 的为第 6 份,α * = 1. 04,1. 06 的为第 7 份, α* = 1. 08,1. 10,1. 12的为第8份,这样划分是由于考虑各份中数据量的平衡,采用所述 Baum-Welch算法用每份数据训练一个UBM模型;步骤⑷用目标说话人的训练语音提取所述MFCC特征,并对8个UBM模型分别 进行最大后验概率MAP自适应,得到8个GMM模型,具体自适应方法为步骤(4.1):假设其中一个皿1的参数为八={^,凡,乂,讲二1,...,似},1、^和 om2分别表示权重、均值和方差,其数值由步骤(3)中的Baum-Welch算法得到,权重满足 Σ ^ =1,下标m表示高斯分量标号,共含M个高斯分量,假设训练语音共含T帧特征,其 中第t帧特征为ot,则Ot属于第m个高斯分量的后验概率为<formula>formula see original document page 5</formula>其中ΛΓ(·)表示高斯分布的概率密度,对t=l,...,T,m=l,...,M进行循环,计算每帧特征属于每个高斯分量的后验概率;步骤(4. 2)将后验概率以及后验概率与特征的乘积对所有帧进行累加,计算零 阶和一阶统计量<formula>formula see original document page 5</formula>对m = 1,. . .,M进行循环,计算每个高斯分量的零阶和一阶统计量;步骤(4. 3)对一阶统计量和UBM的均值进行线性插值,得到自适应后的GMM模型的均值<formula>formula see original document page 5</formula>其中插值系数为Xm = nm/(nm+r),r为常数,取值为16,对m = 1,. . .,M进行循环,计算GMM模型的每个高斯分量的均值,其权重和方差直接采用UBM的对应的权重和方差;步骤(5)对于测试语音提取MFCC特征,然后分别用8组GMM和UBM模型求取对 数似然比分数,从中选取最小的一个作为分数输出,具体方法为步骤(5. 1)假设测试语音共含Te帧特征,则一组GMM和UBM模型的对数似然比分 数为<formula>formula see original document page 6</formula>步骤(5.2)按步骤(5. 1)所述求取8组的对数似然比分数,从中选取最小的一个 作为输出。本专利技术的有益效果是,根据声道长度弯折系数对背景数据进行划分并分别训练 UBM模型,是对性别相关的UBM的一种自然推广,能够克服数据划分不准以及不够精细的缺 陷。采用多背景模型方法,可以针对不同的说话人选择相近的UBM模型,这样更有利于对 “反模型”进行细致刻画,从而提高说话人识别的准确率。附图说明图1是本专利技术进行多背景模型建模的硬件结构和步骤框图。图2是本专利技术使用多背景模型进行说话人训练的硬件结构和步骤框图。图3是本专利技术使用多背景模型进行说话人测试的硬件结构和步骤框图。具体实施例方式GMM-UBM系统中,UBM模型建立是至关重要的一个步骤,但如何选取UBM训练数据 至今仍没有一套完整的理论指导,研究者们只能凭经验按最终的实验效果来选取。一般来 讲,目前常用的有性别无关的UBM和性别相关的UBM两种,其中性别相关的UBM性能能更加 优越。本专利技术对性别相关的UBM进行推广,按声道长度对训练数据进行划分,得到多个背景 模型,具体实施可分成三个模块。第1模块本文档来自技高网...

【技术保护点】
用于说话人识别的多背景模型建立方法,其特征在于,所述方法是在数字集成电路芯片中依次按以下步骤实现的:步骤(1):采用Baum-Welch算法,用训练通用背景模型UBM的所有数据训练一个高斯混合模型GMMΛ↓[0];步骤(2):求取每段语音的声道长度弯折系数,具体做法为:步骤(2.1):声道长度弯折系数α从0.88以步长0.02变化到1.12,对信号频谱进行“弯折”,设弯折前后的频率为f,f↑[α],频谱的低通和高通截止频率为f↓[l],f↓[u],则弯折公式为f↑[α]=f+斯分量的零阶和一阶统计量;步骤(4.3):对一阶统计量和UBM的均值进行线性插值,得到自适应后的GMM模型的均值:*↓[m]=λ↓[m]E↓[m](*)+(1-λ↓[m])μ↓[m],其中插值系数为λ↓[m]=n↓[m]/(n↓[m]+r),r为常数,取值为16,对m=1,...,M进行循环,计算GMM模型的每个高斯分量的均值,其权重和方差直接采用UBM的对应的权重和方差;步骤(5):对于测试语音提取MFCC特征,然后分别用8组GMM和UBM模型求取对数似然比分数,从中选取最小的一个作为分数输出,具体方法为:步骤(5.1):假设测试语音共含T↓[e]帧特征,则一组GMM和UBM模型的对数似然比分数为:s=*log*w↓[m]N(o↓[t];*↓[m],σ↓[m]↑[2])-*log*w↓[m]N(o↓[t];μ↓[m],σ↓[m]↑[2]),步骤(5.2):按步骤(5.1)所述求取8组的对数似然比分数,从中选取最小的一个作为输出。2(f↓[u]-f↓[l])/πarctan((1-α)sinθ/1-(1-α)cosθ),其中θ=(f-f↓[l])/(f↓[u]-f↓[l])π;步骤(2.2):对步骤(2.1)中每个弯折系数对应的频谱求取Mel频率倒谱系数MFCC特征*↑[α],搜索使所述特征对模型Λ↓[0]的似然度最大的弯折系数:α↑[*]=arg*p(*↑[α]|↑[Λ]),α↑[*]即为该段语音的声道长度弯折系数;步骤(3):将训练UBM的数据按声道长度弯折系数分成8份,其中α↑[*]=0.88的为第1份,α↑[*]=0.90的为第2份,α↑[*]=0.92的为第3份,α↑[*]=0.94的为第4份,α↑[*]=0.96,0.98的为第5份,α↑[*]=1.00,1.02的为第6份,α↑[*]=1.04,1.06的为第7份,α↑[*]=...

【技术特征摘要】

【专利技术属性】
技术研发人员:张卫强刘加
申请(专利权)人:清华大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1