当前位置: 首页 > 专利查询>微软公司专利>正文

说话者验证制造技术

技术编号:3048371 阅读:166 留言:0更新日期:2012-04-11 18:40
说话者验证通过确定测试发言和存储的训练发言的相似性得分来执行。计算相似性得分涉及确定一组函数之和,其中每个函数包括混合成分的先验概率与适应均值和背景均值间差值之积。适应均值是基于背景均值和测试发言形成的。由该说话者提供的用于验证的语音内容可以是独立于文本(即,他们想说的任何内容)或者依赖于文本(即,用于训练的特定短语)。

【技术实现步骤摘要】
【国外来华专利技术】说话者验证背景说话者验证是基于语音信号检验说话者声明身份的过程。验证通常使用已 经为使用系统的每个人进行过训练的语音模型来执行。通常存在有两类说话者验证,即独立于文本和依赖于文本。在独立于文本 的说话者验证中,说话者提供他们想要提供的任何语音内容。在依赖于文本的 说话者验证中,说话者在模型训练和验证系统使用期间朗读一特定短语。通过 重复相同短语,就可以构造用于文本依赖说话者验证系统的语音单位和这些语 音单位之间过渡的强模型。而在文本独立说话者验证系统中则不是这样,因为 许多语音单位和语音单位之间的许多过渡将不会在训练期间被观察到,于是将 不会在模型中良好表示。以上讨论仅提供一般背景信息,并不旨在帮助确定权利要求的主题的范围。概述说话者验证通过确定测试发言和存储的训练发言的相似性得分来执行。计 算相似性得分涉及确定一组函数之和,其中每个函数包括混合成分的后验概率 与适应均值和背景均值间差异之积。适应均值是基于背景均值和测试发言形成 的。提供本概述以便以简化形式介绍将在以下详细描述中进一步描述的一些 概念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在 用于帮助确定所要求保护的主题的范围。所要求保护的主题不限于解决任何或 所有在背景中提及缺点的实现。附图简述附图说明图1是可在其中实践一些实施例的一个计算环境的框图。图2是可在其中实践一些实施例的可选计算环境的框图。 图3是一种训练文本独立验证系统的方法的流程图。图4是用于训练文本独立验证系统的各元素的框图。 图5是一种用于在训练期间设置阈值的方法的流程图。 图6是一种标识测试发言的模型参数的流程图。 图7是在图6和图8方法中使用的各元素的框图。 图8是一种确定测试发言阈值的方法的流程图。 图9是一种验证测试发言的方法的流程图。 图IO是用于验证测试发言的各元素的框图。图11是一种训练用于文本依赖验证系统的隐马尔科夫模型的方法的流程图。图12是用于训练隐马尔科夫模型的各元素的框图。图13是一种使用隐马尔科夫模型验证测试发言的方法的流程图。图14是一种使用隐马尔科夫模型验证测试发言的各元素的框图。详细描述图1示出了可在其上实现各实施例的合适计算系统环境100的示例。计算 系统100仅为合适的操作环境的一个示例,并非对所要求保护的主题的使用范 围或功能提出任何局限。也不应该把计算环境100解释为对示例性操作环境 100中示出的任一组件或其组合有任何依赖性或要求。各实施例可用各种其它通用或专用计算系统环境或配置来操作。适合在各 实施例中使用的公知的计算系统、环境和/或配置的示例包括,但不限于,个人 计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的 系统、机顶盒、可编程消费者电子产品、网络PC、小型机、大型机、包含上 述系统或设备中的任一个的分布式计算机环境等。各实施例可在诸如由计算机执行的程序模块等计算机可执行指令的通用 上下文中描述。 一般而言,程序模块包括例程、程序、对象、组件、数据结构 等,它们执行特定任务或实现特定抽象数据类型。 一些实施例被设计为在分布 式计算环境中实施,在分布式计算环境中任务是由通过通信网络链接的远程处理设备来执行的。在分布式计算环境中,程序模块位于包括记忆存储设备的本 地和远程计算机存储介质上。参考图1,用于实现一些实施例的一个示例性系统包括计算机110形式的 通用计算设备。计算机110的组件可以包括,但不限于处理单元120、系统存储器130和将包括系统存储器在内的各种系统组件耦合至处理单元120的系 统总线121。系统总线121可以是若干种总线结构中的任一种,包括存储器总 线或存储器控制器、外围总线以及使用各类总线体系结构中的任一种的局部总 线。作为示例而非局限,这类体系结构包括工业标准体系结构(ISA)总线、 微通道体系结构(MCA)总线、增强型ISA (EISA)总线、视频电子技术标 准协会(VESA)局部总线、以及外围部件互连(PCI)总线(也称为小背板 (Mezzanine)总线)。计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计 算机110访问的任何可用介质,且包括易失性和非易失性介质、可移动和不可 移动介质。作为示例,而非限制,计算机可读介质可以包括计算机存储介质和 通信介质。计算机存储介质包括以任何方法或技术实现的用于存储诸如计算机 可读指令、数据结构、程序模块或其它数据等信息的易失性和非易失性、可移 动和不可移动介质。计算机存储介质包括,但不限于,RAM、 ROM、 EEPROM、 闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、 磁带盒、磁带、磁盘存储或其它磁性存储设备、或能用于存储所需信息且可以 由计算机110访问的任何其它介质。通信介质通常具体化为诸如载波或其它传 输机制等已调制数据信号中的计算机可读指令、数据结构、程序模块或其它数 据,且包含任何信息传递介质。术语已调制数据信号指的是这样一种信号, 其一个或多个特征以在信号中编码信息的方式被设定或更改。作为示例,而非 限制,通信介质包括有线介质,诸如有线网络或直接线连接,以及无线介质, 诸如声学、RF、红外线和其它无线介质。上述的任意组合应该包含在计算机可 读介质的范围内。系统存储器130包括易失性和/或非易失性存储器形式的计算机存储介 质,如只读存储器(ROM) 131和随机存取存储器(RAM) 132。基本输入/ 输出系统133 (BIOS)包含有助于诸如启动时在计算机110中元件之间传递信息的基本例程,它通常被存储在ROM 131中。RAM 132通常包含处理单元120 可以立即访问和/或目前正在操作的数据和/或程序模块。作为示例而非局限, 图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。计算机110还可以包括其他可移动/不可移动、易失性/非易失性计算机存 储介质。仅作为示例,图l示出了从不可移动、非易失性磁介质中读取或向其 写入的硬盘驱动器141,从可移动、非易失性磁盘152中读取或向其写入的磁 盘驱动器151,以及从诸如CDROM或其它光学介质等可移动、非易失性光盘 156中读取或向其写入的光盘驱动器155。可以在示例性操作环境中使用的其 它可移动/不可移动、易失性/非易失性计算机存储介质包括,但不限于,盒式 磁带、闪存卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。硬 盘驱动器141通常由不可移动存储器接口,诸如接口 140连接至系统总线121, 磁盘驱动器151和光盘驱动器155通常由可移动存储器接口,诸如接口 150连 接至系统总线121。上面讨论并在图1中说明的驱动器和它们的相关计算机存储介质为计算 机110提供了对计算机可读指令、数据结构、程序模块和其它数据的存储。例 如,在图1中,硬盘驱动器141被示为存储操作系统144、应用程序145、其 它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用 程序135、其它程序模块136和程序数据137相同或不同。操作系统144、应 用程序145、其它程序模块146和程序数据147在这里被标注了不同的标号是 为了说明至少它们是不同的副本。用户可以通本文档来自技高网...

【技术保护点】
一种方法,包括: 接收(600)语音信号(700); 基于所述语音信号(700)通过适应包括针对多个混合分量中每一分量的背景均值的背景模型(412)来形成(604)针对所述多个混合分量中每一分量的适应均值(714); 通过确定为所述多个混合分量确定的函数之和来确定(906)相似性得分(1012),其中每个函数包括基于所述语音信号的混合分量后验概率与适应均值(714)和背景均值(412)之差的积。

【技术特征摘要】
【国外来华专利技术】US 2006-2-20 11/358,3021. 一种方法,包括接收(600)语音信号(700);基于所述语音信号(700)通过适应包括针对多个混合分量中每一分量的背景均值的背景模型(412)来形成(604)针对所述多个混合分量中每一分量的适应均值(714);通过确定为所述多个混合分量确定的函数之和来确定(906)相似性得分(1012),其中每个函数包括基于所述语音信号的混合分量后验概率与适应均值(714)和背景均值(412)之差的积。2. 如权利要求1所述的方法,其特征在于,还包括基于来自用户的训练 语音信号(420)通过适应(312)所述背景模型来形成(312)针对所述多个 混合分量中每一分量的训练均值。3. 如权利要求2所述的方法,其特征在于,每个函数还包括基于所述训 练语音信号的混合分量后验概率与训练均值和背景均值之差的积。4. 如权利要求3所述的方法,其特征在于,还包括接收(900)名义用户 标识(1000)并且基于所述名义用户标识选择(902)供所述函数使用的训练 均值(1002)。5. 如权利要求1所述的方法,其特征在于,还包括为说话者池(400)内 多个说话者中的每个说话者形成(306)说话者池均值(418),针对一说话者 的所述说话者池均值是基于来自所述说话者的语音通过适应背景模型而形成 的。6. 如权利要求5所述的方法,其特征在于,每个函数还包括相应的阈值, 其中每个阈值(722)是基于针对所述说话者池中一说话者子集的说话者池均 值(720)。7. 如权利要求6所述的方法,其特征在于,还包括基于由所述说话者池 均值(418)和所述适应均值(714)确定的相似性得分来从所述说话者池中选 择(800)所述说话者子集。8. 如权利要求7所述的方法,其特征在于,还包括基于来自用户的训练语音信号(420)通过适应(312)所述背景模型来形 成(312)针对所述多个混合分量中每一分量的训练均值(426);以及基于针对所述说话者池中第二所述说话者子集的说话者池均值来确定 (314)名义用户标识(436),所述第二子集是基于由所述说话者池均值和所 述训练均值确定的相似性得分从所述说话者池中选择(502)的。9. 如权利要求8所述的方法,其特征在于,每个函数还包括第二阈值。10. —种具有用于执行以下步骤的计算机可执行指令的计算机可读介质 确定(800)测试发言(714)与一组训练发言集合(418)中的每一发言之间的相似性得分;使用(800)所述相似性得分选择所述一组训练发言集合的一个子集(720);使用训练发言的所述子集(720)来定义阈值(724);以及使用(906)所述阈值来确定所述测试发言和一存储的用户发言之间的验证相似性得分。11. 如权利要求IO所述的计算机可读介质,其特征在于,确定(906)相 似性得分包括基于所述测试发言适应(604)背景模型以形成适应均值并在所 述相似性得分中使用(906)所述适应均值。12. 如权利要求ll所述的计算机可读介质,其特征在于,使用(906)所 述适应均值包括确定所述适应均值和所述背景模型的背景均值之差并使用所 述差来确定所述相似性得分。13. 如权利要求12所述的计算机可读介质,其特征在于,确定所述相似 性...

【专利技术属性】
技术研发人员:Z张M刘
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利