说话人识别系统中的注册技术方案

技术编号:24694024 阅读:53 留言:0更新日期:2020-06-27 12:50
在说话人识别系统中对用户进行注册的方法,包括接收所述用户的话语的样本。由所述用户的话语的样本生成试验声纹。获得与所述试验声纹有关的得分。仅当所述得分满足一预定标准时,才基于所述试验声纹对用户进行注册。

Registration in speaker recognition system

【技术实现步骤摘要】
【国外来华专利技术】说话人识别系统中的注册
本文所描述的实施方案涉及说话人识别系统。
技术介绍
说话人识别系统越来越广泛地被使用。在这样的系统中,用户通过提供他们的话语的样本来进行注册,此被用于形成话语的模型,还被称为声纹(voiceprint)。然后,在后续的说话人识别尝试期间,将话语的样本与模型进行比较。可以将用户归类到“生物测定动物园(biometriczoo)”中的类别,以指示:(a)系统是否很容易将他们的后续话语输入识别为匹配他们的已注册样本;以及,(b)系统是否错误地将另外的人的话语样本识别为他们的已注册样本。
技术实现思路
现在已经认识到,通过仅当用户所提供的话语样本允许生成强声纹(strongvoiceprint)时才允许对用户进行注册,可以在说话人识别系统中避免对用户的一些错误接受和错误拒绝。根据本专利技术的一个方面,提供了一种在说话人识别系统中对用户进行注册的方法,该方法包括:接收所述用户的话语的样本;由所述用户的话语的样本生成试验声纹;获得与所述试验声纹有关的得分;以及仅当得分满足一预定标准时,才基于所述试验声纹对所述用户进行注册。根据本专利技术的另一方面,提供了一种用于在说话人识别系统中对用户进行注册的系统,该系统被配置用于根据所述方法操作。根据本专利技术的另一方面,提供了一种包括这种系统的设备。所述设备可以包括移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器。根据本专利技术的另一方面,提供了一种计算机程序产品,包括计算机可读有形介质,以及用于执行根据第一方面的方法的指令。根据本专利技术的另一方面,提供了一种非暂时性计算机可读存储介质,在所述非暂时性计算机可读存储介质上存储有计算机可执行指令,在由处理器电路系统执行所述计算机可执行指令时,所述计算机可执行指令使所述处理器电路系统执行根据第一方面的方法。附图说明为了更好地理解本专利技术且示出如何实施本专利技术,现在将参考附图,在附图中:图1例示了一个智能电话;图2是例示智能电话的形式的示意图;图3例示了话语处理系统;图4例示了在说话人识别系统中对用户进行注册的方法。具体实施方式下面的描述阐述了根据本公开内容的示例实施方案。对于本领域普通技术人员而言,其他示例实施方案和实施方式将是显而易见的。此外,本领域普通技术人员将认识到,可以代替下面所讨论的实施方案或与下面所讨论的实施方案相结合地应用多种等同技术,且所有这样的等同物应被认为是本公开内容所涵盖的。本文所描述的方法可以在各种各样的设备和系统(例如,移动电话、音频播放器、视频播放器、移动计算平台、游戏设备、遥控器设备、玩具、机器或家庭自动化控制器或家用电器)中实施。然而,为了易于解释一个实施方案,将描述一个例示性实施例,其中实施方式发生在智能电话中。图1例示了一个智能电话10,该智能电话10具有用于检测周边声音的麦克风12。在正常使用中,麦克风当然用于检测将智能电话10靠近他们的脸部握持的用户的话语。图2是例示智能电话10的形式的示意图。具体地,图2示出了智能电话10的多个互连部件。应理解,智能电话10实际上将包含许多其他部件,但是以下描述对于理解本专利技术是足够的。因此,图2示出了上面所提及的麦克风12。在某些实施方案中,智能电话10设置有多个麦克风12、12a、12b等。图2还示出了存储器14,该存储器14实际上可以被设置为单个部件或多个部件。存储器14被设置用于存储数据和程序指令。图2还示出了处理器16,该处理器16实际上也可以被设置为单个部件或多个部件。例如,处理器16的一个部件可以是智能电话10的应用处理器。图2还示出了收发器18,该收发器18被设置用于允许智能电话10与外部网络通信。例如,收发器18可以包括用于经由WiFi局域网或经由蜂窝网络建立互联网连接的电路系统。图2还示出了音频处理电路系统20,用于根据需要对由麦克风12所检测到的音频信号执行操作。例如,音频处理电路系统20可以对音频信号进行滤波,或可执行其他信号处理操作。在此实施方案中,智能电话10设置有语音生物测定功能且设置有控制功能。因此,智能电话10能够响应于来自已注册用户的口语命令来执行多种功能。生物测定功能能够在来自已注册用户的口语命令和由一个不同的人说出的相同命令之间进行区分。因此,本专利技术的某些实施方案涉及操作智能电话或具有某种语音可操作性的另一便携式电子设备,例如平板计算机或膝上型计算机、游戏控制台、家庭控制系统、家庭娱乐系统、车载娱乐系统、家用电器等,其中在旨在执行口语命令的设备中执行语音生物测定功能。某些其他实施方案涉及在智能电话或其他设备上执行语音生物测定功能的系统,如果语音生物测定功能能够确认说话人是已注册用户,则智能电话或其他设备将命令发送至一个分立的设备。在一些实施方案中,虽然在智能电话10或靠近用户定位的其他设备上执行语音生物测定功能,但是使用收发器18将口语命令传输至远程话语识别系统,该远程话语识别系统确定口语命令的含义。例如,话语识别系统可以位于云计算环境中的一个或多个远程服务器上。然后,基于口语命令的含义的信号被返回至智能电话10或其他本地设备。在其他实施方案中,还在智能电话10上执行话语识别。本专利技术的实施方案可以被用于包括语音处理系统的多种音频处理系统。下面所描述的是在说话人识别系统中所使用的实施方案。图3是例示说话人识别系统的基本形式的框图。典型的说话人识别系统30使用基于大量人的话语的背景模型,例如通用背景模型(UBM)。此话语(被称为开发话语(developmentspeech))被传送至参数化块32,在参数化块32中获得话语的特征。这些特征被传送至建模块34,该建模块34形成背景模型。当用户希望在说话人识别系统中注册时,他们向麦克风说话,且注册用户的话语被传送至第二参数化块36,在第二参数化块36中获得话语的特征。第二参数化块36可以获得与参数化块32相同的特征。由第二参数化块36所获得的特征被传送至第二建模块38,第二建模块38形成用户的话语的模型,还被称为声纹。此考虑了由建模块34所形成的背景模型,从而用户的话语的模型包含有助于将用户与另外的说话人区分开的特征。由建模块38所形成的注册用户的话语的模型被存储在数据库40中。说话人识别系统30可以被用于说话人标识和/或说话人验证。在说话人验证的情况下,说话人明确地或隐含地提供对他们作为已注册用户的身份的指示。此被用于选择该已注册用户的话语的模型。来自该说话人的话语数据被传送至第三参数化块42,在第三参数化块42中获取话语的特征。第三参数化块42可以获得与参数化块32相同的特征。由第三参数化块42所获得的特征被传送至评分块44。评分块44将由第三参数化块42所获得的特征与声称说话人(purportedsp本文档来自技高网...

【技术保护点】
1.一种在说话人识别系统中对用户进行注册的方法,所述方法包括:/n接收所述用户的话语的样本;/n由所述用户的话语的样本生成试验声纹;/n获得与所述试验声纹有关的得分;以及/n仅当所述得分满足一预定标准时,才基于所述试验声纹对所述用户进行注册。/n

【技术特征摘要】
【国外来华专利技术】20180213 GB 1802309.3;20171114 US 62/585,6271.一种在说话人识别系统中对用户进行注册的方法,所述方法包括:
接收所述用户的话语的样本;
由所述用户的话语的样本生成试验声纹;
获得与所述试验声纹有关的得分;以及
仅当所述得分满足一预定标准时,才基于所述试验声纹对所述用户进行注册。


2.根据权利要求1所述的方法,其中获得与所述试验声纹有关的得分包括:
获得指示所述试验声纹与另外的声纹或话语样本之间的相似度的得分;以及
仅当所述得分满足一预定标准时,才基于所述试验声纹对所述用户进行注册。


3.根据权利要求2所述的方法,其中获得得分包括获得第一得分,所述第一得分指示先前所存储的另外的说话人的声纹或话语样本与所述试验声纹之间的相似度,且其中所述方法包括:
仅当所述第一得分低于第一阈值时,才基于所述试验声纹对所述用户进行注册。


4.根据权利要求3所述的方法,其中所述第一阈值对应于预定的错误接受率。


5.根据权利要求3所述的方法,还包括:
如果所述得分超过所述第一阈值,则请求所述用户提供他们的话语的第二样本且由所述第二样本生成新的试验声纹。


6.根据权利要求3所述的方法,还包括:
如果所述得分超过所述第一阈值,则由所接收的所述用户的话语的样本生成新的试验声纹。


7.根据权利要求3、4或5所述的方法,包括:
获得多个得分,所述得分中的每一得分指示相应的先前所存储的另一说话人的声纹或话语样本与所述试验声纹之间的相应的相似度;
确定所述多个得分中的哪个得分是最小值;以及
将所述多个得分中的最小值作为所述第一得分。


8.根据权利要求3、4或5所述的方法,包括:
获得多个得分,所述得分中的每一得分指示相应的先前所存储的另一说话人的声纹或话语样本与所述试验声纹之间的相应的相似度;
确定所述多个得分的平均值;以及
将所述多个得分的平均值作为所述第一得分。


9.根据权利要求3至8中的一项所述的方法,其中所述第一得分指示先前所存储的另外的说话人的选定群组的声纹或话语样本之间的相似度,且其中所述方法包括:
确定另外的说话人的多个群组中的哪个群组最接近所述试验声纹,且在获得所述第一得分时使用所述最接近的群组作为所述选定群组。


10.根据权利要求2所述的方法,包括由所述用户的话语的样本的至少一个区段生成所述试验声纹,
其中获得得分包括获得第二得分,所述第二得分指示所述用户的话语的样本的至少一个另外的区段与所述试验声纹之间的相似度,以及
其中所述方法包括:
仅当所述第二得分高于第二阈值时,才基于所述试验声纹对所述用户进行注册。


11.根据权利要求10所述的方法,其中所述第二阈值对应于预定的错误拒绝率。


12.根据权利要求10或11所述的方法,还包括:
如果所述得分不超过所述第二阈值,则请求所述用户提供他们的话语的第二样本且由所述第二样本生成新的试验声纹。


13.根据权利要求10或11所述的方法,还包括:
如果所述得分不超过所述第二阈值,则由所接收的所述用户的话语的样本生成新的试验声纹。


14.根据任一项前述权利要求所述的方法,包括:
接收所述用户的话语的样本;
将所述用户的话语的样本划分成多个区段;以及
基于所述多个区段的子集获得所述试验声纹。


15.根据权利要求14所述的方法,其中,选择言语中的一个言语的步骤包括:
基于所述多个区段中的全部区段来获得第二声纹;
对于所述多个区段中的每一区段,获得代表相应的区段与所述第二声纹之间的相似性的相应得分;
标识所述区段中与所述第二声纹具有最低相似性的一个区段;以及
基于将所述区段中被标识的区段排除在外的多个区段来获得所述试验声纹。


16.根据权利要求15所述的方法,包括重复如下步骤:获得第二声纹;获得代表相应的区段与所述第二声纹之间的相似性的相应得分;以及,标识所述区段中与所述第二声纹具有最低相似性的一个区段,之后获得所述试验声纹。


17.根据权利要求14所述的方法,其中选择言语中的一个言语的步骤包括:
获得多个第二声纹,每一第二声纹基于将所述言语中相应的一个言语排除在外的多个言语;
针对所述多个言语中的每一言语,基于将所述言语中相应的一个言语排除在外的多个言语,获得代表相应的言语与相应的第二声纹之间的相似性的相应得分;
标识所述言语中与所述相应的第二声纹具有最低相似性的一个言语;以及
使用基于将所述言语中被标识的一个言语排除在外的多...

【专利技术属性】
技术研发人员:J·P·莱索B·霍普森
申请(专利权)人:思睿逻辑国际半导体有限公司
类型:发明
国别省市:英国;GB

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1