当前位置: 首页 > 专利查询>微软公司专利>正文

声道谐振跟踪方法技术

技术编号:3046446 阅读:175 留言:0更新日期:2012-04-11 18:40
一种方法和装置通过对每一个别的声道共振频率/带宽计算单独的函数,并将结果相加形成一模拟特征矢量的元素,将一组声道共振频率连同其对应的带宽一起映射到LPC倒频谱形式的模拟声学特征矢量。模拟特征矢量连同输入特征矢量一起应用到一模型,来确定该组声道共振频率出现在语音信号中的概率。在一个实施例中,该模型包括一目标导向转移模型,它基于过去的声道共振频率以及该声道共振频率的目标提供了声道共振频率的概率。在另一实施例中,由HMM系统提供音素分段,并用于精确地确定在每一帧使用哪一目标值。

【技术实现步骤摘要】

本专利技术涉及语音识别系统,尤其涉及利用语音中的声道谐振的语音识别系统。
技术介绍
在人类的语音中,大量信息包含在语音信号的前三个或四个共振频率中。特别地,当说话者发出元音时,这些共振的频率(并且至一较低的程度,带宽)指示正在说出哪一元音。这类共振频率和带宽通常被共同称为共振峰。在通常有声的响音语音中,可发现共振峰为语音信号的频率表示中的频谱突起。然而,在非响音语音中,无法直接发现共振峰为频谱突起。鉴于此原因,术语“共振峰”有时候被解释为仅应用到语音的响音部分。为避免混淆,一些研究人员使用词组“声道共振”来指在响音和非响音语音中出现的共振峰。在两种情况下,共振仅涉及声道的口头通道部分。为检测共振峰,现有技术的系统分析语音信号的一帧的频谱内容。由于共振峰可以是任一频率,现有技术试图在标识最可能的共振峰值之前限制搜索空间。在现有技术的一些系统中,通过标识该帧的频谱内容中的峰值来减小可能共振峰的搜索空间。通常,通过使用试图找出表示语音信号的帧的频谱内容的多项式线性预测编码(LPC)来完成这一过程。该多项式的每一个根表示该信号中的一个可能的共振频率,并由此表示可能的共振峰。因此,使用LPC,将搜索空间减小到形成LPC多项式的根的那些频率。在现有技术的其它共振峰跟踪系统中,通过将该帧的频谱内容与其中由专家标识了共振峰的一组频谱模板进行比较,来减小搜索空间。然后选择最接近的“n”个模板,并用于对该帧计算共振峰。因此,这些系统将搜索空间减小到与最接近的模板关联的那些共振峰。由本专利技术的专利技术人开发的现有技术的一个系统使用对输入信号的每一帧相同的一致搜索空间。搜索空间中的每一组共振峰被映射到一特征矢量。然后将每一特征矢量应用到一模型来确定哪一组共振峰是最可能的。这一系统能较好地起作用,然而在计算上花费较大,因为它通常使用梅尔频率倒频谱系数(Mel-Frequency Cepstral Coefficient)频率矢量,需要将一组频率应用到一基于映射的共振峰组中的所有共振峰的复杂滤波器,并随后应用一加窗步骤和一离散余弦变换步骤以将共振峰映射到特征矢量。这一计算太耗时,以至于无法在运行时刻执行,并且因此在运行时刻之前必须映射所有的共振峰组,并且映射的特征矢量必须储存在一个较大的表格中。这决不理想,因为它需要大量的存储器来储存所有映射的特征矢量。另外,MFCC系统提供的映射很难逆转的,因为在执行加窗函数之前共振峰被组合成乘积。由此,需要一种共振峰跟踪系统,它不以使用不同的共振峰搜索空间来标识语音信号的不同帧中的共振峰的方式减少搜索空间,而同时限制了标识这些共振峰所需要的存储器量和计算资源。另外,过去的共振峰跟踪器在确定随时间推移共振峰中的变化的似然性时不使用共振峰目标。相反,过去的系统使用了一般连续性约束。然而,这类系统在非响音语音区段中不能表现良好。
技术实现思路
一种方法和装置通过对每一单独的声道共振频率计单独的函数,并将结果相加形成一模拟特征矢量的元素,以将一组声道共振频率映射到模拟特征矢量。模拟特征矢量连同输入特征矢量一起应用到一模型,来确定该组声道共振频率在语音信号中出现的概率。在一个实施例中,该模型包括一目标导向转移模型,它基于一过去声道共振频率和声道共振频率的目标提供一声道共振频率的概率。附图说明图1所示是可在其中实践本专利技术的实施例的通用计算环境的框图。图2所示是语音信号的幅度谱的曲线图。图3所示是本专利技术的方法的流程图。图4所示是用于在本专利技术的一个实施例中训练余量模型的训练系统的框图。图5所示是本专利技术的一个实施例中共振峰跟踪系统的框图。具体实施例方式图1示出了适合在其中实现本专利技术的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非建议对本专利技术的使用或功能的范围的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有依赖或需求。本专利技术可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本专利技术的众所周知的计算系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统、包括任一上述系统或设备的分布式计算环境等等。本专利技术可在计算机可执行指令的一般上下文环境中描述,计算机可执行指令如程序模块,由计算机执行。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。设计本专利技术在分布式计算环境中实践,其中,任务由通过通信网络连接远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储媒质中,包括存储器存储设备。参考图1,用于实现本专利技术的示例性系统包括以计算机110形式的通用计算装置。计算机110的组件可包括但不限于,处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线结构的本地总线。作为示例而非局限,这类结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)本地总线以及外围部件互连(PCI)总线,也称为Mezzanine总线。计算机110通常包括各种计算机可读媒质。计算机可读媒质可以是可由计算机110访问的任一可用媒质,包括易失和非易失媒质、可移动和不可移动媒质。作为示例而非局限,计算机可读媒质包括计算机存储媒质和通信媒质。计算机存储媒质包括以用于储存信息的任一方法或技术实现的易失和非易失,可移动和不可移动媒质,信息如计算机可读指令、数据结构、程序模块或其它数据。计算机存储媒质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它媒质。通信媒质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送媒质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信媒质包括有线媒质,如有线网络或直接连线连接,以及无线媒质,如声学、RF、红外和其它无线媒质。上述任一的组合也应当包括在计算机可读媒质的范围之内。系统存储器130包括以易失和/或非易失存储器形式的计算机存储媒质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM131中。RAM132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。计算机110也可包括其它可移动/不可移动、易失/非易失计算机存储媒质。仅作示例,图1示出了对不可移动、非易失磁媒质进行读写的硬盘驱动器141、对可移动、非易失磁本文档来自技高网
...

【技术保护点】
一种跟踪语音信号中声道共振频率的方法,其特征在于,所述方法包括:给定一组声道共振频率,确定一观测声学特征矢量的观测概率;部分地基于对所述声道共振频率的目标导向约束,确定从第一组声道共振频率转移到第二组声道共振频率的转移概率; 以及使用所述观测概率和所述转移概率来选择对应于观测声学特征矢量的一组声道共振频率。

【技术特征摘要】
US 2003-8-29 10/652,9761.一种跟踪语音信号中声道共振频率的方法,其特征在于,所述方法包括给定一组声道共振频率,确定一观测声学特征矢量的观测概率;部分地基于对所述声道共振频率的目标导向约束,确定从第一组声道共振频率转移到第二组声道共振频率的转移概率;以及使用所述观测概率和所述转移概率来选择对应于观测声学特征矢量的一组声道共振频率。2.如权利要求1所述的方法,其特征在于,确定观测概率包括利用一组声道共振频率和一特征矢量之间的映射。3.如权利要求2所述的方法,其特征在于,确定观测概率还包括使用一表示所述语音信号的帧的输入特征矢量和映射自一组声道共振频率的特征矢量之间的差的模型中的余量项。4.如权利要求2所述的方法,其特征在于,使用映射包括单独为每一声道共振频率计算一个函数,并将每一函数的结果相加来形成一模拟特征矢量的元素。5.如权利要求4所述的方法,其特征在于,使用映射还包括使用声道共振带宽和模拟特征矢量之间的映射。6.如权利要求4所述的方法,其特征在于,形成模拟特征矢量的元素包括形成一线性预测编码倒频谱特征矢量的元素。7.如权利要求1所述的方法,其特征在于,所述转移概率基于一高斯分布,它具有基于第二组声道共振频率的值和第一组声道共振频率的目标的平均值。8.如...

【专利技术属性】
技术研发人员:邓立I巴齐A阿塞罗
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1