用于使用动态门限进行讲话者验证的方法与系统技术方案

技术编号:3045447 阅读:184 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种用于使用动态门限进行讲话者验证的方法与系统,其对于验证诸如讲话者的身份等讲话者属性是有用的。该方法包括估计接收的语音信号的语音噪声比(SNR)(步骤605)。接着,确定门限设定,其为SNR与指定接收器操作特性(ROC)的函数(步骤610)。其后,使用门限设定来处理语音信号,以验证讲话者的属性,并符合指定的ROC(步骤615)。

【技术实现步骤摘要】

一般地,本专利技术涉及讲话者验证方法与系统。更具体地,尽管并非排它性地,本专利技术涉及使用基于背景噪声的估计水平设置的动态门限的讲话者验证。
技术介绍
生物鉴定常常是保护对设备或设施的访问的理想方法。与传统的涉及物理钥匙或者键入的密码的安全锁不同,生物锁仅可由特定的、授权的个人操作。因此,这样的锁通过测量独特的生物特性,例如指纹、眼模式、或话音签名,来评定个人身份。当某人试图开启这样的锁时,测量该人士的一或多个生物特性,并与授权人士数据库中的信息比较。如果找到匹配,则锁开启,否则锁保持关闭。因为没有易于丢失、失窃或忘记的钥匙或密码,并且因为生物签名可以是高度可靠和独特的,生物锁很可能越来越普及。涉及讲话者验证、或话音认证的生物锁,关注话音签名的生物匹配。讲话者验证是保护访问的特别方便的技术,这是因为用户可以以“免提(hand free)”的方式容易地进行之。这使得对于经常操作于“免提”模式的设备,例如移动电话与个人数字助理(PDA),讲话者验证成为理想的安全技术。因此,存在无数种试图分类和匹配人类话音的特性,以允许话音签名作为生物钥匙得到可靠使用的算法。算法包括高斯混合模型通用背景模型(GMM-UBM)方法。在GMM-UBM讲话者鉴定中,以GMM建模授权的讲话者。使用大的语音语料库(large speech corpus)首先创建高阶讲话者无关的UBM。其后,使用贝叶斯(Bayesian)或最大后验概率(MAP)适配方法,从UBM导出单个讲话者的模型。其后,将模型与输入话音特性向量比较,以确定特定输入话音是否匹配GMM-UBM模型之一。如大多数检测系统那样,讲话者验证系统通常被调谐,以提供想要的接收器操作特性(ROC)。检测/错误折衷(DET)曲线是测量ROC的通用方法,其评估两种类型的错误误拒绝率与误接受率。关于讲话者验证,当授权的人士试图将他的或她的话音与话音模型匹配,但该人士被验证系统不适当地拒绝时,误拒绝发生。当未授权的人士,例如冒名顶替者,能够成功地将他的或她的话音与为另一人士创建的话音模型匹配,从而获得对设备或设施的不适当的访问时,误接受发生。许多检测系统被校准,使得系统操作于误接受率曲线与误拒绝率曲线相交的状况。该状况常常被称为等错误率(EER)点,其提供了位于过多的误接受与过多的误拒绝之间的平衡。附图说明为使本专利技术易于理解和投入实用,现在将参照示例性实施例,如参照所附绘图所示,其中在各个分立的视图中,相似的引用号指代相同或功能上相似的组件。绘图连同下面的详细描述集成到说明书中并形成说明书的一部分,以进一步阐释实施例,和解释各种原则与优点,其遵照本专利技术,其中图1是阐释无线电话形式的无线通信设备的示意图;图2是阐释接收器操作特性(ROC)曲线的典型集的图形;图3是阐释两对误接受/误拒绝(FA/FR)ROC曲线的图形;图4是阐释恒定FR错误率曲线的图形,其中门限Th显示为SNR的函数;图5是阐释恒定FA错误率曲线的图形,其中门限Th显示为SNR的函数和图6是阐释遵照本专利技术的一个实施例的讲话者验证方法的步骤的流程图。本领域技术人员将意识到,图中的组件为简单和清晰起见而绘制,不一定遵照比例画出。例如,图中某些组件的尺寸相对于其它组件可能被夸大,以帮助促进对本专利技术的实施例的理解。具体实施例方式在详细描述遵照本专利技术的实施例之前,需要观察到的是,实施例主要存在于涉及用于使用动态门限进行讲话者验证的方法与系统的方法步骤与设备组件的组合。相应地,在适宜时,图中以传统符号表示设备组件与方法步骤,仅显示与理解本专利技术的实施例相关的特定细节,从而避免对于本领域普通技术人员而言显而易见的细节压倒这里的描述,令本公开变得晦涩。在本文档中,关系术语,例如第一与第二、顶与底、等等仅用于将一实体或动作从另一实体或动作区分开来,而不一定要求或暗示在这样的实体或动作之间(存在)任何实际的这样的关系或顺序。术语“包括”或其任何其它变形意欲指代非排它性的包括,使得包括一组组件的过程、方法、物品、或设备不仅包括这些组件,还可包括未特别地列出的或为该过程、方法、物品、或设备所固有的其它组件。在无更多限制时,“包括...”之后的组件不排除在包括该组件的过程、方法、物品、或设备中存在其它相同组件。参照图1,阐释无线电话100形式的无线通信设备的示意图,无线电话100包括射频通信单元102,其被连接以与处理器103通信。无线电话100还具有小键盘106与显示屏105,其被连接以与处理器103通信。如对于本领域技术人员而言将显而易见的那样,屏105可以是触摸屏,从而使小键盘106成为可选项。处理器103包括编码器/解码器111,其具有相关联的代码只读存储器(ROM)112,其为编码和解码可由无线电话100发送或接收的话音或其它信号存储数据。处理器103还包括微处理器113,其由公共数据与地址总线117连接到编码器/解码器111、字符只读存储器(ROM)114、随机存取存储器(RAM)104、静态可编程存储器116与SIM接118。静态可编程存储器116与SIM(常称为SIM卡)可操作地连接到SIM接口118,除其它功能之外,其可分别存储所选择的进来的文本消息与电话号码数据库(TND)(电话簿),其包括用于电话号码的号码域以及用于标识符的名称域,名称域中的标识符与号码之一相关联。例如,电话号码数据库TND中的一个条目可以是91999111111(在号码域中输入),其名称域中为相关联的标识符“StevenC!at work”。SIM卡与静态存储器116还可存储密码或训练语音信号语料库,以允许访问无线电话100上的受保护功能。微处理器113具有端口,以连接到小键盘106与屏105和警报115,警报115典型地包括警报扬声器、振动器马达与相关联的驱动器。而且,微处理器113具有端口,以连接到麦克风135和通信扬声器140。字符只读存储器114存储码字,以解码或编码可由通信单元102接收的文本消息。在此实施例中,字符只读存储器114也存储用于微处理器113的操作码字(OC),并存储用于进行与无线电话100相关联的功能的码字。射频通信单元102为具有公共天线107的组合的接收器与发送器。通信单元102具有收发器108,其经由射频放大器109连接到天线107。收发器108也连接到组合调制器/解调器110,以将通信单元102连接到处理器103。参照图2,阐释本领域众所周知的接收器操作特性(ROC)曲线的典型集的图形。y轴表示错误率,而x轴表示门限设置,特定检测系统操作于该门限以产生一组给定的错误率。如应用于讲话者验证(SV)技术,例如可包括在无线电话100中的那样,误接受(FA)曲线表示这样的错误率,其中未授权的人士,例如冒名顶替者,能够成功地将他的或她的话音与为另一人士创建的话音模型匹配,从而获得对电话100的不适当的访问。误拒绝(FR)曲线表示这样的错误率,其中授权的人士试图将他的或她的话音与话音模型匹配,但对电话100的访问被不适当地拒绝。两曲线的交点常被称为等错误率(EER)点。如本领域众所周知的那样,检测系统常被校准,以操作在EER点或接近EER点,以提供最优性能。关于无线电话100中包括的SV系统,如果系统被校准以操作在对应于门限设本文档来自技高网...

【技术保护点】
一种讲话者验证的方法,其包括:估计接收的语音信号的语音噪声比(SNR);确定门限设定,其为所述SNR与指定接收器操作特性(ROC)的函数;和使用所述门限设定来处理所述语音信号,以验证讲话者的属性,并符合所述的指定的ROC。

【技术特征摘要】
1.一种讲话者验证的方法,其包括估计接收的语音信号的语音噪声比(SNR);确定门限设定,其为所述SNR与指定接收器操作特性(ROC)的函数;和使用所述门限设定来处理所述语音信号,以验证讲话者的属性,并符合所述的指定的ROC。2.如权利要求1所述的方法,其中所述的指定的ROC为误拒绝(FR)率、误接受(FA)率、或等错误率(EER)状况。3.如权利要求1所述的方法,其中所述门限设定是误接受(FA)率ROC的函数,且遵照下面的公式确定ThresholdFA=C*log(SNR)+f(FA)。4.如权利要求1所述的方法,其中所述门限设定是误拒绝(FR)率ROC的函数,且遵照下面的公式确定ThresholdFR=C*log(SNR)+f(FR)。5.如权利要求1所述的方法,其中所述的处理所述语音信号的步骤包括将所述语音信号的属性与训练语音信号语料库的属性匹配。6.如权利要求1所述的方法,其中所述讲话者属性从下面的组中挑选讲话者的身份、讲话者讲的语言、讲话者的性别、或讲话者的年龄。7.一种讲话者验证系统,其包括麦克风,其被适配以接收语音信号;和微处理器,其可被操作地连接到所述麦克风;其中所述微处理器被适配,以便估计所述...

【专利技术属性】
技术研发人员:张亚昕韩兆兵黄伟
申请(专利权)人:摩托罗拉公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1