【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及语音(音频)处理技术,具体而言,涉及说话人识别(speakerrecognition)以及说话人验证(speaker verification)的技术。
技术介绍
说话人识别技术在人机交互(Human-Machine Interactive)中是有用的。能够使许多应用和产品与说话人识别技术相对应,例如(I)对某种设备(家电产品、汽车、PC终端等)的现场访问控制,或者(2)通过电话线路、移动电话线路、或者计算机的数据线路对数据库、网站、甚至是银行交易的安全的远程访问等,或者能够具备说话人识别技术以实现功能强化。在现实的系统中,在使用说话人识别系统之前,需要先进行对目标说话人的登记或注册(registration)过程。在说话人登记过程中,从目标说话人收集样本语音,使用该样本语音生成特定说话人的统计模板。所生成的统计模板的质量对说话人识别系统的性能具有较大的影响。图1表示用于对说话人验证系统的口令建模的以往设备的图。用户在登记过程中希望登记自己的口令时,通过说话人验证系统的前端101请求来自目标用户的口令的发声。用户的发声每次不一定完全相同,因而为了在建模单元103中得到鲁棒的统计模板模型,需要反复3至5次口令。所生成的模板模型为了随后进行确认,存储在数据库105内。
技术实现思路
专利技术要解决的问题以往方法的两个主要缺点在于:(I)在可利用的登记数据少、或者存在较大的说话人内变动的情况下,不能保证登记的效果;以及(2)用户喜欢简单的登记过程,因而在需要多次重复时,用户体验并不好。解决问题的方案在本公开的一个方式中,实现用于验证说话人的口令建模设备, ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.用于验证说话人的口令建模设备,包括: 前端,从目标说话人获得登记语音;和 模板生成单元,基于所述登记语音利用普通说话人模型生成口令模板。2.如权利要求1所述的口令建模设备, 所述前端将所述登记语音分割为多个帧,从所述多个帧的每一个中提取表示声学特性和/或内容的特征参数。3.如权利要求1所述的口令建模设备, 所述普通说话人模型包 括多个高斯分量,所述高斯分量表示从所述验证说话人时预测的多个说话人收集到的语音数据。4.如权利要求3所述的口令建模设备, 所述模板生成单元使用各帧的所述特征参数计算所述高斯分量的各似然性得分,对于各帧选择具有最高的似然性得分的N个高斯分量,其中N为自然数。5.如权利要求4所述的口令建模设备, 所述前端或所述模板生成单元将所述登记语音分割为大小相等或者大小不等的多个段,各段包含多个帧。6.如权利要求5所述的口令建模设备, 所述模板生成单元对各段内的所有帧的所述高斯分量进行排序,并对经过了所述排序的高斯分量进行合并,获得隐马尔可夫模型网作为所述口令模板。7.如权利要求6所述的口令建模设备, 所述模板生成单元对具有不同分量索引的各段内的所有帧的所述高斯分量进行排序,对所述排序的高斯分量的后验概率进行累计,并且合并在所述后验概率的距离测量中最近的高斯分量。8.如权利要求1或6所述的口令建模设备, 所述口令模板通过MAP和MLLR等自适应方法按照所述登记语音进行自适应。9.如权利要求1所述的口令建模设备, 所述普通说话人模型通过MAP和MLLR等自适应方法按照所述登记语音进行自适应,所述模板生成单元利用所述自适应普通说话人模型生成所述口令模板。10.用于验证说话人的口令建模方法,包括: 从目标说话人获得登记语音的步骤;和 基于所述登记语音利用普通说话人模型生成口令模板的步骤。11.如权利要求10所述的口令建模方法,还包括: 将所述登记语音分割为多个帧的步骤;和 从所述多个帧的每一个中提取表示声学特性和/或内容的特征参数的步骤。12.如权利要求10或11所述的口令建模方法, 所述普通说话人模型包括多个高斯分量,所述高斯分量表示从所述验证说话人时预测的多个说话人收集到的语音数据。13.如权利要求12所述的口令建模方法,还包括: 使用各帧的所述特征参数计算所述高斯分量的各似然性得分的步骤;和 对于各帧选择具有最高的似然性得分的N个高斯分量的步骤,N为自然数。14.如权利要求13所述的口令建模方法,还包括: 将所述登记语音分割为大小相等或者大小不等的多个段的步骤,各段包含多个帧。15.如权利要求14所述的口令建模方法,还包括: 对各段内的所有帧的所述高斯分量进行排序的步骤;和 合并经过了所述排序的高斯分量,作为所述口令模板获得隐马尔可夫模型网的步骤。16.如...
【专利技术属性】
技术研发人员:马龙,沈海峰,张丙奇,
申请(专利权)人:松下电器产业株式会社,
类型:
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。