当前位置: 首页 > 专利查询>清华大学专利>正文

基于模型顺序自适应技术的说话人确认系统创建方法技术方案

技术编号:8981124 阅读:167 留言:0更新日期:2013-07-31 23:12
本发明专利技术公开了一种基于模型顺序自适应技术的说话人确认系统创建方法,包括步骤:依次录入第1至n个说话人的语音,其中,j依次取1到n执行如下步骤:录入第j个说话人的语音时,创建第j个说话人的通用背景模型、弱说话人模型,且对已建立的各个说话人的弱说话人模型进行更新。当第n个说话人的语音录入完毕后,第n个说话人的通用背景模型,及第1个至第n个说话人的弱说话人模型分别最后更新得到的说话人模型构成说话人确认系统。本发明专利技术基于初始通用背景模型,利用依次录入的n个说话人语音中包含的信道信息和说话人充分统计信息,顺序自适应出相应说话人的通用背景模型和说话人模型,从而创建出用于说话人身份确认的说话人确认系统。

【技术实现步骤摘要】

本专利技术涉及一种基于模型顺序自适应技术实现的、用于说话人身份确认的说话人确认系统的创建方法,属于计算机及信息服务

技术介绍
说话人确认技术属于生物识别技术的一种,是利用声音波形中所包含的表征说话人个性特性的信息进行说话人身份确认的技术,截止目前,说话人确认技术已被广泛地应用到了诸如金融认证、公安刑侦破案、国防监听、个性化服务等各个领域。说话人确认过程主要包括声纹建模和识别。目前,声纹建模通常采用高斯混合模型和通用背景模型(GMM-UBM)框架,即以基于数百人、男女均衡、信道匹配的说话人语音进行充分训练的通用背景模型(UBM)作为基准,其中的每个说话人基于其数十秒的语音在该通用背景模型上的适应而得到反映其自身特征的高斯混合模型(GMM),从而构建出用于进行说话人身份确认的说话人确认系统,如附图说明图1所示。但是,在实际实施中可以发现,上述基于高斯混合模型和通用背景模型构建的说话人确认系统在进行说话人身份确认时存在如下缺陷:由于说话人语音一般比较短,难以覆盖整个说话人声学空间,因此,关于每个说话人的高斯混合模型一般都是基于该说话人语音在通用背景模型上自适应得到,说话人语音覆盖到的声学空间由说话人语音得到,未能覆盖到的声学空间由通用背景模型得到,其中,自适应一般是改变模型的均值参数。在实际中,通用背景模型基于数百人、男女均衡、信道匹配、数小时语音的训练后才被认为可充分覆盖说话人声学空间,而这种假设的前提是,高斯混合模型在通用背景模型上自适应所产生的偏移量能够且仅反映说话人的特性。这样就要求通用背景模型的训练在背景环境、信道上均要与说话人语音的背景环境、信道保持一致,否则将极大降低说话人识别性能。然而,实际应用环境下的信道是经常发生变化的,比如由电话信道转为手机信 道,移动基站调整信道参数等。一旦信道发生变化,原先的通用背景模型必然发生信道不匹配的问题,导致说话人识别性能的下降。而重新训练通用背景模型,一方面,获取大量与新信道一致的说话人语音对说话人确认系统的实时性消耗是极大的,且会浪费大量人力物力,另一方面,获取大量与新信道一致的说话人语音很难,有时甚至不可能实现。目前,针对信道补偿的说话人确认技术主要有本征信道、因子分析等,但这些技术均需要大量预知的信道数据才能进行计算,因此实现起来十分困难。
技术实现思路
本专利技术的目的在于提供一种,该方法针对实际实施中说话人顺序录入的特点,基于模型顺序自适应技术自适应出关于各个说话人的通用背景模型和说话人模型,从而创建出了用于说话人身份确认的说话人确认系统。为了实现上述目的,本专利技术采用了以下技术方案:一种,其特征在于,它包括如下步骤:步骤一:依次录入第I个至第η个说话人的语音,其中:j依次取I到η执行如下步骤:录入第j个说话人的语音时,基于第j个说话人的语音以及在第j个说话人之前进行录入的j-ι个说话人中各个说话人的通用背景模型的说话人充分统计信息,通过初始通用背景模型自适应出第j个说话人的通用背景模型,并且,基于该第j个说话人的语音,通过该第j个说话人的通用背景模型自适应出第j个说话人的弱说话人模型,并且,已建立的各个说话人的弱说话人模型分别基于自身的说话人充分统计信息,通过第j个说话人的通用背景模型进行更新;步骤二:当第η个说话人的语音录入完毕后,第η个说话人的通用背景模型,以及第I个至第η个说话人的弱说话人模型分别最后更新得到的说话人模型构成说话人确认系统。每个说话人的通用背景模型的所述说话人充分统计信息为该说话人在所述初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值。所述基于所述第j个说话人的语音以及在第j个说话人之前进行录入的j_l个说话人中各个说话人的通用背景模型的说话人充分统计信息,通过初始通用背景模型自适应出第j个说话人的通用背景模型,n,包括如下步骤:通过下式1-1)和1-2)计算第j个说话人的通用背景模型的说话人充分统计信息,该说话人充分统计信息包括第j个说话人在初始通用背景模型上的各个混合的贡献率累加值(c)及贡献率加权值, (c)本文档来自技高网
...

【技术保护点】
一种基于模型顺序自适应技术的说话人确认系统创建方法,其特征在于,它包括如下步骤:步骤一:依次录入第1个至第n个说话人的语音,其中:j依次取1到n执行如下步骤:录入第j个说话人的语音时,基于第j个说话人的语音以及在第j个说话人之前进行录入的j?1个说话人中各个说话人的通用背景模型的说话人充分统计信息,通过初始通用背景模型自适应出第j个说话人的通用背景模型,并且,基于该第j个说话人的语音,通过该第j个说话人的通用背景模型自适应出第j个说话人的弱说话人模型,并且,已建立的各个说话人的弱说话人模型分别基于自身的说话人充分统计信息,通过第j个说话人的通用背景模型进行更新;步骤二:当第n个说话人的语音录入完毕后,第n个说话人的通用背景模型,以及第1个至第n个说话人的弱说话人模型分别最后更新得到的说话人模型构成说话人确认系统。

【技术特征摘要】
1.一种基于模型顺序自适应技术的说话人确认系统创建方法,其特征在于,它包括如下步骤: 步骤一:依次录入第I个至第η个说话人的语音,其中: j依次取I到η执行如下步骤:录入第j个说话人的语音时,基于第j个说话人的语音以及在第j个说话人之前进行录入的j-ι个说话人中各个说话人的通用背景模型的说话人充分统计信息,通过初始通用背景模型自适应出第j个说话人的通用背景模型,并且,基于该第j个说话人的语音,通过该第j个说话人的通用背景模型自适应出第j个说话人的弱说话人模型,并且,已建立的各个说话人的弱说话人模型分别基于自身的说话人充分统计信息,通过第j个说话人的通用背景模型进行更新; 步骤二:当第η个说话人的语音录入完毕后,第η个说话人的通用背景模型,以及第I个至第η个说话人的弱说话人模型分别最后更新得到的说话人模型构成说话人确认系统。2.如权利要求1所述的基于模型顺序自适应技术的说话人确认系统创建方法,其特征在于: 每个说话人的所述通用背景模型的所述说话人充分统计信息为该说话人在所述初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值。3.如权利要求1所述的基于模型顺序自适应技术的说话人确认系统创建方法,其特征在于: 所述基于所述第j个说话人的语音以及在第j个说话人之前进行录入的j-ι个说话人中各个说话人的通用背景模型的说话人充分统计信息,通过初始通用背景模型自适应出第j个说话人的通用背景模型,n,包括如下步骤: 通过下式1-1)和1-2)计算第j个说话人的通用背景模型的说话人充分统计信息,该说话人充分统计信息包括第j个说话人在初始通用背景模型上的各个混合的贡献率累加值及贡献率加权值,(C)..,、▽ Ν(χJi^uBmSclaubm (c))一 rUbmj ⑷=~I I) Σ, N(xjj; (C),σ— (c))/、_...

【专利技术属性】
技术研发人员:王军王东邬晓钧郑方
申请(专利权)人:清华大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1