用于验证说话人的口令建模的设备和方法、以及说话人验证系统技术方案

技术编号:8963048 阅读:160 留言:0更新日期:2013-07-25 22:51
提供用于验证说话人的口令建模的设备和方法、以及说话人验证系统。设备包括:前端,从目标说话人获得登记语音;以及模板生成单元,基于登记语音利用普通说话人模型生成口令模板。在设备、方法、以及系统中,通过考虑普通说话人模型中包含的丰富的变异,即使在登记数据不充分的情况下,或者来自目标说话人的可利用的口令仅有一个时,也能可靠地进行鲁棒的口令建模。

【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及语音(音频)处理技术,具体而言,涉及说话人识别(speakerrecognition)以及说话人验证(speaker verification)的技术。
技术介绍
说话人识别技术在人机交互(Human-Machine Interactive)中是有用的。能够使许多应用和产品与说话人识别技术相对应,例如(I)对某种设备(家电产品、汽车、PC终端等)的现场访问控制,或者(2)通过电话线路、移动电话线路、或者计算机的数据线路对数据库、网站、甚至是银行交易的安全的远程访问等,或者能够具备说话人识别技术以实现功能强化。在现实的系统中,在使用说话人识别系统之前,需要先进行对目标说话人的登记或注册(registration)过程。在说话人登记过程中,从目标说话人收集样本语音,使用该样本语音生成特定说话人的统计模板。所生成的统计模板的质量对说话人识别系统的性能具有较大的影响。图1表示用于对说话人验证系统的口令建模的以往设备的图。用户在登记过程中希望登记自己的口令时,通过说话人验证系统的前端101请求来自目标用户的口令的发声。用户的发声每次不一定完全相同,因而为了在建模单元103中得到鲁棒的统计模板模型,需要反复3至5次口令。所生成的模板模型为了随后进行确认,存储在数据库105内。
技术实现思路
专利技术要解决的问题以往方法的两个主要缺点在于:(I)在可利用的登记数据少、或者存在较大的说话人内变动的情况下,不能保证登记的效果;以及(2)用户喜欢简单的登记过程,因而在需要多次重复时,用户体验并不好。解决问题的方案在本公开的一个方式中,实现用于验证说话人的口令建模设备,该设备包括:前端,从目标说话人获得登记语音;以及模板生成单元,基于登记语音利用普通说话人模型生成口令模板。在本公开的另一形式中,提供用于验证说话人的口令建模方法,该方法包括:从目标说话人获得登记语音的步骤;以及基于登记语音利用普通说话人模型生成口令模板的步骤。在本公开的又一形式中,实现说话人验证系统,该系统包括:前端,从目标说话人获得登记语音和/或测试语音;模板生成单元,基于登记语音利用普通说话人模型生成口令模板;以及动态验证单元,将来自目标说话人的测试语音与从口令模板中选择出的数据进行比较,其中,在比较结果为阈值以上的情况下,目标说话人被作为申报说话人受理。在本公开的设备、方法、以及系统中,通过考虑普通说话人模型中包含的丰富的变异,即使在登记数据不充分的情况下,或者来自目标说话人的可利用的口令仅有一个时,也能够可靠地进行鲁棒的口令建模。上述为概要内容,因此当然进行了简化、一般化,并且省略了详细情况,因此本领域技术人员可以理解,概要内容仅为例示,并不意图以任何形式进行限制。本说明书中记载的设备和/或过程和/或其他主题的其他方式、特征、以及优点通过本说明书中描述的示教而变得明确。本“
技术实现思路
”用于导入以下的“具体实施方式”中进一步说明的一些概念的简化形式。本“
技术实现思路
”并不意图明示权利要求的主题的关键特征或本质特征,也并不意图用于辅助决定权利要求的主题的范围。通过参考附图,利用以下的说明以及附属的权利要求可以使本公开的上述特征以及其他特征完全明确。这些附图仅表示基于本公开的多个实施方式,因此应当理解,不应将其认为是限制本公开的范围的内容,使用附图更具体地、详细地说明本公开。附图说明图1是用于对说话人验证的口令建模的以往设备的图。图2是基于本公开的一实施方式的用于对说话人验证的口令建模的设备的图。图3是对于登记语音的各帧的、从普通说话人模型中选择出的从高到低的N个高斯分量(分布)的略图。图4是表示将登记语音分割为多个段(segment)的图。图5是合并为一个或多个GMM (高斯混合模型)的、登记语音的一个段内的高斯分量的图。图6是包括合并后的GMM的HMM网的图。图7是对说话人验证的口令建模的方法的流程图。图8是基于本公开的一实施方式的说话人验证系统的图。图9是基于本公开的另一实施方式的用于对说话人验证的口令建模的设备的图。具体实施例方式在下面的详细说明中参考附图,这些附图构成详细说明的一部分。图中类似的标号典型地标识类似的成分,除非在上下文中另行说明。详细的说明、附图、以及权利要求中说明的例示的实施方式并不意图进行限定。也能够利用其他实施方式,另外在不脱离本说明书提出的主题的精神和范围的情况下,可以增加其他变形。容易理解的是,在本说明书中进行一般性地说明并在图中例示的本公开的方式可以通过各种不同结构进行配置、置换、组合、以及设计,它们均被明确地考察并构成本公开的一部分。本公开尤其涉及关于对说话人验证的口令建模的设备、方法、以及系统。图2表示基于本公开的一实施方式的用于对说话人验证的口令建模的设备的图。如图2所示,基于本公开的一实施方式的用于对说话人验证的口令建模的设备200包括前端201、模板生成单元203、自适应单元207、口令数据库205、以及说话人模型数据库213。在上述结构中,模板生成单元203分别连接于前端201、自适应单元207、口令数据库205、以及说话人模型数据库213。根据本公开的一实施方式,设备200可以仅包括模板生成单元203,该模板生成单元203作为外部单元或设备连接在前端201、自适应单元207、口令数据库205、以及说话人模型数据库213等其他单元上。基于一实施方式的用于对说话人验证的口令建模的设备200包括:前端201,从目标说话人获得登记语音;以及模板生成单元203,基于登记语音利用普通说话人模型生成口令模板。以下说明基于本公开的一实施方式的设备200的上述各个单元的操作。具体而言,设备200需要进行本质上是具有M (例如M = 1024)个高斯分量的混合模型的、普通说话人模型(HMM(隐马尔可夫模型)或GMM-UBM(通用背景模型))的学习。这种高斯分量从来自多个说话人的语音数据的集合中提取出来,上述多个说话人代表说话人验证时预测的说话人的总体。预想普通说话人模型包含例如以下所示的、由说话人之间以及说话人内差异引起的丰富的变异。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.用于验证说话人的口令建模设备,包括: 前端,从目标说话人获得登记语音;和 模板生成单元,基于所述登记语音利用普通说话人模型生成口令模板。2.如权利要求1所述的口令建模设备, 所述前端将所述登记语音分割为多个帧,从所述多个帧的每一个中提取表示声学特性和/或内容的特征参数。3.如权利要求1所述的口令建模设备, 所述普通说话人模型包 括多个高斯分量,所述高斯分量表示从所述验证说话人时预测的多个说话人收集到的语音数据。4.如权利要求3所述的口令建模设备, 所述模板生成单元使用各帧的所述特征参数计算所述高斯分量的各似然性得分,对于各帧选择具有最高的似然性得分的N个高斯分量,其中N为自然数。5.如权利要求4所述的口令建模设备, 所述前端或所述模板生成单元将所述登记语音分割为大小相等或者大小不等的多个段,各段包含多个帧。6.如权利要求5所述的口令建模设备, 所述模板生成单元对各段内的所有帧的所述高斯分量进行排序,并对经过了所述排序的高斯分量进行合并,获得隐马尔可夫模型网作为所述口令模板。7.如权利要求6所述的口令建模设备, 所述模板生成单元对具有不同分量索引的各段内的所有帧的所述高斯分量进行排序,对所述排序的高斯分量的后验概率进行累计,并且合并在所述后验概率的距离测量中最近的高斯分量。8.如权利要求1或6所述的口令建模设备, 所述口令模板通过MAP和MLLR等自适应方法按照所述登记语音进行自适应。9.如权利要求1所述的口令建模设备, 所述普通说话人模型通过MAP和MLLR等自适应方法按照所述登记语音进行自适应,所述模板生成单元利用所述自适应普通说话人模型生成所述口令模板。10.用于验证说话人的口令建模方法,包括: 从目标说话人获得登记语音的步骤;和 基于所述登记语音利用普通说话人模型生成口令模板的步骤。11.如权利要求10所述的口令建模方法,还包括: 将所述登记语音分割为多个帧的步骤;和 从所述多个帧的每一个中提取表示声学特性和/或内容的特征参数的步骤。12.如权利要求10或11所述的口令建模方法, 所述普通说话人模型包括多个高斯分量,所述高斯分量表示从所述验证说话人时预测的多个说话人收集到的语音数据。13.如权利要求12所述的口令建模方法,还包括: 使用各帧的所述特征参数计算所述高斯分量的各似然性得分的步骤;和 对于各帧选择具有最高的似然性得分的N个高斯分量的步骤,N为自然数。14.如权利要求13所述的口令建模方法,还包括: 将所述登记语音分割为大小相等或者大小不等的多个段的步骤,各段包含多个帧。15.如权利要求14所述的口令建模方法,还包括: 对各段内的所有帧的所述高斯分量进行排序的步骤;和 合并经过了所述排序的高斯分量,作为所述口令模板获得隐马尔可夫模型网的步骤。16.如...

【专利技术属性】
技术研发人员:马龙沈海峰张丙奇
申请(专利权)人:松下电器产业株式会社
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1