一种基于文本无关的短语音说话人确认方法技术

技术编号:21062700 阅读:57 留言:0更新日期:2019-05-08 08:22
本发明专利技术涉及一种基于文本无关的短语音说话人确认方法,基于UBM‑CM‑MAP‑GMM模型,针对低得分高斯分量会对声纹识别系统识别性能的负面影响,将低得分高斯分量删减掉,只选择得分高的高斯分量,将这些高得分的高斯分量进行组合,从而为每个目标说话人建立自己的竞争者模型CM,然后基于每个说话人的CM模型通过MAP自适应得到说话人的声纹模型GMM。

【技术实现步骤摘要】
一种基于文本无关的短语音说话人确认方法
本专利技术涉及人工智能、模式识别
中的声纹识别技术,具体涉及一种基于文本无关的短语音说话人确认方法。
技术介绍
声纹识别技术是一门将计算机、生物统计学、生物传感器等多种学科相结合的综合学科,该技术主要是通过每个人独特的先天生理特征或者后天的行为特性对人的身份进行识别的技术。声纹识别(VoiceprintRecognition)又被称为说话人识别,是一种生物识别技术,该技术主要通过人的声音中包含的特征信息对说话人身份进行自动识别的技术。在声纹识别技术的实际应用过程中,经常会面临语音数据较短、数据量稀缺的情况。短语音问题对说话人识别的影响主要表现在:当训练语音不足时,对说话人特征参数的分布情况刻画不完整,进而影响声纹模型的准确性。在声纹识别系统中,比较经典的声纹模型有:动态时间规整模型(DTW)、矢量量化模型(VQ)、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、支持向量机模型(SVM)等。对于短语音问题,普遍采用UBM-MAP-GMM模型,该模型的基本原理如图1所示。该模型可以在一定程度上解决短时语音问题,但该模型也有其自身的缺点。在该模型中,经过自适应得到的说话人声纹模型强制服从UBM的统一分布,当语音数据进一步变短(有效语音低于10s)时,由于训练数据不充分,很多高斯分量没有得到充分的学习,自适应得到的说话人模型与UBM模型差异并不大,从而给声纹识别带来了极大的困难。针对UBM-MAP-GMM声纹识别系统计算量大、运行速度慢的情况,目前有研究者提出了一些改进的方法,这些方法在不同程度上降低了声纹识别系统识别过程中存在的计算量。一种是高斯分量的核心挑选算法,该算法将各个UBM的高斯分量组织成树的结构,在语音测试阶段通过树形结构快速挑选出与测试语音帧相似度高的若干高斯分量,该方法降低了识别系统所需的运算量,同时由于通过高斯分量搜索未必能找到真正似然得分最高的前若干个高斯分量,因此导致系统识别性能有一定程度的降低。另一种是快速计算似然得分的方法,即针对一帧语音,首先计算该帧语音在UBM中每个高斯分量的得分,并根据高分优先的方法筛选出前C个分量进行标记,在对测试语音在个人GMM上进行计算时,只计算GMM模型中与UBM对应的C个高斯分量下的似然得分,因此该方法可以减少系统在语音测试时的计算量,尽快做出识别结果,然而,该模型在语音训练时仍然需要基于UBM为每个说话人建立高阶的声纹模型GMM,在训练模型阶段仍然需要进行大量计算。
技术实现思路
鉴于上述方法所存在的问题,本专利技术提出一种基于文本无关的短语音说话人确认方法,将从降低声纹模型GMM阶数的角度上对模型做出改进,从而降低声纹识别系统的等错误率及计算复杂度。本专利技术的技术方案如下:一种基于文本无关的短语音说话人确认方法,其特征在于包括:(1)基于UBM-CM-MAP-GMM模型的说话人确认的个人GMM训练:对UBM模型中的高斯分量根据训练语音的得分进行高分优先的选取方法,为每个说话人建立自己的CM模型;在训练过程中,首先采用大量的不同的说话者语音进行训练得到UBM模型,使得该模型表征所有说话人声学特征分布的公共特性;然后利用目标说话人训练语音首先计算每一帧特征矢量在通用背景模型UBM中的每个高斯分量上的得分,在此基础上计算训练语音中所有语音帧在UBM模型每个高斯分量上的得分,根据得分高低选择出前若干个高得分的高斯分量并进行组合得到个人CM,将CM作为训练目标说话人声纹模型的初值;最后,利用该初值基于MAP训练方法对初始模型进行调整进而得到说话人声纹模型GMM;(2)基于UBM-CM-MAP-GMM模型的说话人确认的语音测试:在语音测试阶段,计算测试语音在说话人声纹模型GMM上的得分与测试语音在竞争者模型CM上的似然得分;然后基于似然得分,根据系统判决规则输出识别结果。本专利技术是一种基于UBM-CM-MAP-GMM的识别方法。在短语音说话人识别中,UBM-CM-MAP-GMM模型不仅缩短了系统的识别时间,而且也降低了系统的等错误率。UBM-CM-MAP-GMM模型在个人GMM混合度为通用背景模型UBM的一半时,系统性能最佳。总之,改进的说话人确认方法克服了传统UBM-MAP-GMM模型将所有说话人的声纹模型GMM服从同一模型结构的缺点,不仅减少了识别系统的计算量而且也提升了系统的识别性能。附图说明图1是基于UBM-MAP-GMM模型架构的说话人确认流程图;图2是本专利技术基于UBM-CM-MAP-GMM模型的说话人确认基本流程图;图3是本专利技术UBM-CM-MAP-GMM模型中个人GMM的训练过程示意图;图4是本专利技术的说话人语音测试流程图。具体实施方式本专利技术主要针对UBM-MAP-GMM模型存在的计算量大、部分高斯分量对识别性能影响等问题,提出了基于UBM-CM-MAP-GMM的识别方法,这种方法主要是基于UBM-MAP-GMM系统中存在说话人语音训练不充分进而影响最终判决结果的情况,对UBM模型的高斯分量进行筛选,为每个说话人建立自己有针对性的低阶UBM,即竞争者模型CM,然后基于低阶UBM,利用训练语音为每个说话人建立自己的声纹模型GMM。这种识别方法的主要目的是:有效提高段语音说话人识别的性能,而且在降低CM和GMM混合度基础上,减少说话人识别在语音测试阶段的时间耗费。UBM-CM-MAP-GMM模型的主要思想是:针对低得分高斯分量会对声纹识别系统识别性能的负面影响,将低得分高斯分量删减掉,只选择得分高的高斯分量,这些得分高的高斯分量可以理解为由接近目标说话人声纹特征信息的多个说话人的语音训练得到,将这些高得分的高斯分量进行组合,从而为每个目标说话人建立自己的竞争者模型CM(CohortModels),该模型中的各个高斯分量能更加准确的对说话人的声纹特征信息进行描述,然后基于每个说话人的CM模型通过MAP自适应得到说话人的声纹模型GMM。在一定程度上来讲,该模型不仅保留了UBM模型的思想,同时又引进了竞争者模型的竞争思想。在UBM-CM-MAP-GMM模型中,UBM模型仍然代表了说话人语音特征分布的公共特性,同时认为高区分性高斯分量能够更加精确的表征说话人的语音特征信息,借鉴了竞争性思想,从UBM中取出高得分的高斯分量进行组合得到每个说话人的针对性UBM即CM模型,使得该针对性UBM模型与说话人的声纹模型更加逼近,最后基于针对性UBM模型即CM模型自适应得到说话人的声纹模型GMM,所以UBM-CM-MAP-GMM模型架构是在UBM-MAP-GMM模型架构的基础上结合竞争者模型进行改进优化的声纹模型。本专利技术基于UBM-CM-MAP-GMM模型的说话人确认方法流程如图2所示,包括:一、基于UBM-CM-MAP-GMM模型的说话人确认的个人GMM训练:基于UBM-CM-MAP-GMM模型架构的声纹确认方法对声纹模型进行训练过程如图3所示,主要训练思想是对UBM模型中的高斯分量根据训练语音的得分进行高分优先的选取方法,为每个说话人建立自己的CM模型。在训练过程中,首先,采用大量的不同的说话者语音进行训练得到UBM模型,使得该模型表征所有说话人声学特征分布的公共特性;然后利用目标说话人训练语音首先计算每一帧特征矢量在通用本文档来自技高网
...

【技术保护点】
1.一种基于文本无关的短语音说话人确认方法,其特征在于包括:(1)基于UBM‑CM‑MAP‑GMM模型的说话人确认的个人GMM训练:对UBM模型中的高斯分量根据训练语音的得分进行高分优先的选取方法,为每个说话人建立自己的CM模型;在训练过程中,首先采用大量的不同的说话者语音进行训练得到UBM模型,使得该模型表征所有说话人声学特征分布的公共特性;然后利用目标说话人训练语音首先计算每一帧特征矢量在通用背景模型UBM中的每个高斯分量上的得分,在此基础上计算训练语音中所有语音帧在UBM模型每个高斯分量上的得分,根据得分高低选择出前若干个高得分的高斯分量并进行组合得到个人CM,将CM作为训练目标说话人声纹模型的初值;最后,利用该初值基于MAP训练方法对初始模型进行调整进而得到说话人声纹模型GMM;(2)基于UBM‑CM‑MAP‑GMM模型的说话人确认的语音测试:在语音测试阶段,计算测试语音在说话人声纹模型GMM上的得分与测试语音在竞争者模型CM上的似然得分;然后基于似然得分,根据系统判决规则输出识别结果。

【技术特征摘要】
1.一种基于文本无关的短语音说话人确认方法,其特征在于包括:(1)基于UBM-CM-MAP-GMM模型的说话人确认的个人GMM训练:对UBM模型中的高斯分量根据训练语音的得分进行高分优先的选取方法,为每个说话人建立自己的CM模型;在训练过程中,首先采用大量的不同的说话者语音进行训练得到UBM模型,使得该模型表征所有说话人声学特征分布的公共特性;然后利用目标说话人训练语音首先计算每一帧特征矢量在通用背景模型UBM中的每个高斯分量上的得分,在此基础上计算训练语音中所有语音帧在UBM模型每个高斯分量上的得分,根据得分高低选择出前若干个高得分的高斯分量并进行组合得到个人CM,将CM作为训练目标说话人声纹模型的初值;最后,利用该初值基于MAP训练方法对初始模型进行调整进而得到说话人声纹模型GMM;(2)基于UBM-CM-MAP-GMM模型的说话人确认的语音测试:在语音测试阶段,计算测试语音在说话人声纹模型GMM上的得分与测试语音在竞争者模型CM上的似然得分;然后基于似然得分,根据系统判决规则输出识别结果。2.根据权利要求1所述的基于文本无关的短语音说话人确认方法,其特征在于:所述基于UBM-CM-MAP-GMM模型的说话人确认的个人GMM训练,具体实现方式如下:(11)采用大量不同说话人的语音采用EM算法训练得到通用背景模型UBM;(12)利用目标说话人训练语音首先计算每一帧特征矢量Xk在通用背景模型UBM中的每个高斯分量λui上的得分Pi(Xk|λui);(13)然后计算训练语音中所有语音帧在UBM模型每个高斯分量λui上的得分Pi(X|λ...

【专利技术属性】
技术研发人员:杨瑞瑞柴秀英
申请(专利权)人:北京航天长峰科技工业集团有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1