用于说话者认证的模型自适应系统和方法技术方案

技术编号:3047394 阅读:207 留言:0更新日期:2012-04-11 18:40
本发明专利技术的模型自适应系统是一种说话者认证系统,该系统体现了能够调整在注册分量过程中学习到的模型以跟踪用户声音时效的能力。该系统具有以下优点:仅需要用于识别模型的单个注册,其中的识别模型包括神经树网络(22)、高斯混合模型(26),动态时间规划(16)或多个模型(30)(即,神经树网络(22)、高斯混合模型(26),动态时间规划(16)的组合(30))。此外,本发明专利技术可以应用于文本相关或文本无关系统。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】
对相关申请的交叉参考该申请优先于临时申请60/064,069,该临时申请发布于1997年11月3日,名称为。
技术介绍
1专利
本专利技术涉及一种系统和方法用于调整说话者认证模型以便在认证过程中获得增强的性能,本专利技术特别涉及基于子字的说话者认证系统,该系统能够调整神经树网络(NTN),高斯混合模型(GMM),动态时间规划模板(DTW),或上述的组合,而不需要重新训练模型所需的额外时间。本专利技术涉及数字语音处理和说话者认证领域。2相关技术的描述说话者认证是一种其中利用他或她的声音样本来确认某个人身份的语音技术。特别的,说话者认证系统试图将正在进行身份认证的某个人的声音与已知的声音匹配。这比其它的安全测量,如个人身份号码(PIN)和个人信息更优越,因为一个人的声音唯一依赖于他或她的身份。说话者认证给出一种用于安全增强的强有力方法,该方法可以用于包括计算机电话的很多不同的应用领域中。在说话者识别中,两个主要的领域是说话者辨别和认证。说话者辨别系统试图利用他或她的声音样本在已知人群中确定说话者的身份。相比而言,说话者认证系统试图利用他或她的声音样本来确定某人宣称的身份(某人声称的身份)是否正确。说话者认证包括确定语音样本是否与所宣称的身份充分匹配。语音样本可以是基于文本的或与文本无关。基于文本的说话者认证系统在特定的口令短语之后确认该说话者。口令短语是由系统或用户在注册过程中确定的,相同的口令被用于后续的认证中。一般的,口令短语被限制为固定的词汇,例如有限个数字。有限数量的口令短语使得冒名顶替者很可能发现某个人的口令,从而降低了系统的可靠性。文本无关说话者认证系统并不需要如文本相关说话者认证系统那样,同一文本用于注册和测试。因此,这里不存在口令的概念,不管用户说什么,他或她都会被识别。语音辨别和说话者认证的任务可能涉及大量的词汇,其中不同词汇字的拼音值会基本上重叠。这样,存储和比较整个字模会变得过度冗余,因为各个单字的组成音被独立处理而不考虑它们可识别的类似性。出于这些原因,传统的词汇语音识别和文本相关说话者认证系统基于拼音子字单元来构造模型。执行文本相关说话者认证的传统方法包括统计建模,如隐马尔可夫模型(HMM)或基于模板的建模,如用于语音建模的动态时间规划(DTW)。例如,在A.E.Rosenberg,C.H.Lee ad F.K Soong的文章”Subword Unit Talker Verification Using Hidden MarkovModels”,Proceedings ICASSP,pages 269-272(1990)中描述的子字模型,和在A.E.Rosenberg,C.H.Lee adS.Gokeen的文章”Connected Word Talkef Recognition Using Whole Word HiddenMarkov Models”,Proceedings ICASSP,pages 381-384(1991)中描述的整个字模型已经被说话者认证和语音识别系统考虑。HMM技术具有下面的局限性通常需要大量的数据来充分估计模型参数。其它方法包括神经树网络(NTN)的使用。NTN是一种分级分类器,它组合了判断树和神经网络的特性,如A.Sankar和R.J Mammone,的文章”Growing and Pruning Neural Tree Networks”,IEEETransactions on Computers,C-42:221-229,March 1993中描述的那样。对于说话者识别,NTN的训练数据包括期望说话者的数据和来自其它说话者的数据。NTN将特征空间划分成一些区域,它们被赋予反映说话者产生落在该说话者区域中的特征矢量的可能性的概率。上面描述的建模技术依赖于正在被分段成子字的语音。子字级的建模扩展了系统的多功能性。此外,还假设不同说话者中说话风格的改变可以通过子字级建模更好地被捕获。传统上,语音数据的分段和标注是由受过训练的语言学者利用听觉和视觉提示来手工进行的。然而,该方法存在几个不利的地方,包括任务的时间消耗本质和手工处理所需判断的高度主观的本质。手工语音分段问题的一个解决方法是使用自动语音分段过程。传统的自动语音分段处理使用了分级和非分级方法。分级语音分段涉及多级,精-粗分段,它们可以显示为一个树状形式,称为树状图。最初的分段是情况有限的一个矢量等于一个段的精细级。此后,利用类似性测量值,一个段被选择来与它的左或右邻居合并。这种过程一直重复直到整个发音由一个单个的段来描述。非分级语音分段试图通过利用基于知识工程的规则组或通过使失真或成绩度量极端化来找到最佳的段边界。用于分级和非分级语音分段的技术具有下面的局限性需要有关语音段数量和相应段模块的先验知识。不需要有关簇数的先验知识的技术被定义为“盲目”聚类。该方法在题为”Blind C1ustering of Data With Application to SpeechProcessing System”,发布于1997年4月1日的美国专利申请08/827,562以及相应的题为”B1ind Speech Segmentation”,发布于1996年四月2日的美国临时申请60/014,537中描述,这两篇文档在这里作为参考引用。在盲目聚类中,当聚类开始时,簇的数目是未知的。在前面提到的申请中,数据样本的最小簇数和最大簇数的范围估计值被确定。一簇数据样本包括具有同样特性的对象。对于估计的簇数会定义一个最佳准则。最佳准则确定对于估计的簇数与给定的聚类数据样本来说,怎样才是最佳适合的。数据样本中的最佳簇数是根据最佳准则确定的。基于段之间的最佳边界位置和最佳段数,语音样本被分段。盲目分段方法可以用于文本相关说话者认证系统中。盲目分段方法被用来将未知的口令短语分成子字单元。在说话者认证系统的注册过程中,说话者口令的重复被盲目分段模型用来估计口令中子字的数量以及找到最佳子字边界。对于说话者的每个子字段来说,子字分段器模型,如神经树网络或高斯混合模型可以被用来模拟每个子字的数据。此外,存在很多多模型系统,它们将不同模型的结果组合以便进一步增强性能。上面描述的任何一种说话者认证系统中可以直接影响其成功性的一个关键的方面是针对会话中的变化和时效性的强度。会话中的变化指当用户在某一天和另一天使用认证系统时,说话者的声音会经历微小的变化。在注册后立即进行认证时,用户可以预测说话者认证系统具有最佳性能。然而,经过一段时间之后,当使用该系统时,用户可能会经历一些困难。对于实际的时间段,例如几个月到几年,时效的效果也会降低系统性能。因为当在几周的时间段上测量时说话者的谱变化可能很小,但是随着时间的流逝,这种变化将加大,如S.Furui在文章”Comparison of Speaker recognition Methods usingStatisticai Features and Dynamic Features”,IEEE Transactionson Acoustics,Speech and Signal Processing,ASSP-29:342-350,342-350页,1981年四月中描述的那样。对于某些用户,本文档来自技高网...

【技术保护点】
一种具有模型自适应的自适应说话者认证系统,该系统包括:接收机,该接收机获得声音发音;连接到接收机的装置,用来提取声音发音的预定特征;与提取装置操作性连接的装置,用于将声音发音的预定特征分段,其中的特征值被分成多个子字;连接到 分段装置的至少一个自适应模型,其中的模型模拟所述多个子字并输出一个或多个分数,并且这些模型基于所接收的声音发音来动态更新以引入改变的用户声音的特性。

【技术特征摘要】
US 1997-11-3 60/064,0691.一种具有模型自适应的自适应说话者认证系统,该系统包括接收机,该接收机获得声音发音;连接到接收机的装置,用来提取声音发音的预定特征;与提取装置操作性连接的装置,用于将声音发音的预定特征分段,其中的特征值被分成多个子字;连接到分段装置的至少一个自适应模型,其中的模型模拟所述多个子字并输出一个或多个分数,并且这些模型基于所接收的声音发音来动态更新以引入改变的用户声音的特性。2.权利要求1的自适应说话者认证系统,还包括连接到接收机的模数转换器用于以数字形式给出所获得的声音发音。3.权利要求1的自适应说话者认证系统,还包括连接到提取装置的装置,用于将声音发音规划到动态规划模板,该规划装置给出DTW分数,其中规划装置基于声音发音被调整。4.权利要求1或3的自适应说话者认证系统,其中自适应分类器包括至少一个自适应高斯混合模型,自适应高斯混合模型产生GMM分数。5.权利要求1或3的自适应说话者认证系统,其中自适应模型包括至少一个自适应神经树网络模型,自适应神经树网络产生NTN分数。6.权利要求1或3的自适应说话者认证系统,其中自适应模型包括至少一个自适应高斯混合模型,自适应高斯混合模型产生GMM分数。至少一个自适应神经树网络模型,自适应神经树网络模型产生NTN分数。7.权利要求1的自适应说话者认证系统,还包括连接到模型的装置,用于组合模型分数,该组合装置产生用于组合系统的最终分数。8.权利要求3的自适应说话者认证系统,还包括连接到模型和规划装置的装置,用于组合DTW分数和模型分数,该组合装置产生用于组合系统的最终分数。9.权利要求1的自适应说话者认证系统,其中分段装置基于自动盲目语音分段来产生子字。10.权利要求7的自适应说话者认证系统,其中组合装置是一个线性评估组合。11.一种自适应说话者认证方法,包括以下步骤获得来自已知个人的注册语音;接收来自用户的测试语音;提取测试语音的预定特征;利用动态时间规划模板来规划预定的特征,其中动态规划模板在测试语音的预定特征的基础上被调整,导致产生规划后的特征数据和来自调整后的动态规划模板的动态时间规划分数;产生来自规划后特征数据的子字;利用多个自适应模型为子字计分,其中自适应模型在得自测试语音的子字基础上被调整;将每个分类器分数和动态时间规划分数的结果组合来产生最终的分数;将最终的分数与阈值比较以确定测试语音和注册语音是否来自已知的个人。12.权利要求11的自适应说话者认证方法,还包括以下步骤将获得的测试语音数字化;预处理数字化的测试语音。13.权利要求11的自适应说话者认证方法,其中计分的步骤还包括对至少一个自适应神经树网络模型计分的步骤。14.权利要求11的自适应说话者认证方法,其中的计分步骤包括对至少一个自适应高斯混合模型计分的步骤。15.权利要求11的自适应说话者认证方法,其中计分步骤还包括以下步骤对至少一个自适应高斯混合模型计分,自适应高斯混合模型产生GMM分数;对至少一个自适应神经树网络模型计分,自适应神经树网络模型产生NTN分数。16.权利要求11的自适应说话者认证方法,其中产生步骤包括利用自动盲目语音分段来产生子字。17.权利要求11的自适应说话者认证方法,其中组合步骤包括利用线性评估组合来组合分数。18.一种自适应说话者认证方法,其中至少一个神经树网络模型被基于自适应发音而调整,该方法包括下述步骤存储说话者观测值数目,冒名顶替者观测值数目和来自以前注册或认证的总的观测值数目。获得来自说话者的自适应发音;从说话者...

【专利技术属性】
技术研发人员:K法雷尔W米斯特雷塔
申请(专利权)人:T内提克斯公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1