当前位置: 首页 > 专利查询>微软公司专利>正文

利用具有转换状态空间模型的变化推理的语音识别方法技术

技术编号:3046638 阅读:250 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了开发出的一种方法,其包括1)定义对于连续有价值的隐藏相关生成式参数和观测语音音质的转换状态空间模型,以及2)根据观测的输入值序列,近似提供隐藏相关生成式参数的序列和语音单元序列的似然性的后验概率。在近似后验概率中,语音单元的边界是不固定的,但是是可以被最优确定的。在一个实施例中,使用了高斯近似混合。在另一个实施例中,使用了HMM后验概率。

【技术实现步骤摘要】

技术介绍
本专利技术涉及模式识别,尤其涉及语音识别。模式识别系统,例如语音识别系统,接收输入信号并且将信号解码以发现信号所代表的模式。例如在语音识别系统中,语音信号(经常称为测试信号)通过识别系统接收并且将其解码以识别由语音信号代表的字符串。很多语音识别系统利用隐藏马尔可夫模型,在该隐藏马尔可夫模型中,也可以称为声学单元或者语言单元的语音单元是通过单层连接的状态表示的。利用训练信号,来确定每个语音单元的占用状态和在状态之间跃迁的概率分布。为了对语音信号解码,将信号分成帧,并且将每帧变换成特征向量。然后将特征向量比作状态的分布以识别通过帧表示的HMM状态的大部分可能序列。然后选择与那个序列对应的语音单元。虽然基于HMM的识别系统在执行很多相对简单的语音识别任务时非常好,但是它们不能直接做语音的一些重要的动态元素的模型(并且众所周知很难执行象对话式语音一样的困难的任务)。因此,它们不能适应用于训练的语音信号和已经解码的语音信号之间的动态发音的差别。例如,在临时的说话的调整中,说话者趋向于次清晰发音或者趋向于比他们的语音的清晰发音差。这就意味着在重新定向到下一个目标之前,用户的语音清晰度的递归定义轨道可能达不到想要的目标。由于训练信号是代表性地利用“读取”语音式样形成的,在语音式样中说话者提供比在次清晰的语音中更充分清晰的语音资料,因此次清晰语音不能与训练的HMM状态匹配。结果,识别器对临时语音提供的识别结果少于理想的识别结果。对于过度清晰的语音来说存在相似的问题。在过度清晰的语音中,说话者尽极大的努力使与他们的语音不同的声音可识别。这种极大的努力能够包括改变某些语音单元的声音以致它们能够从相似的发声语音单元中区分出来,较长时间的保持某些语音单元的发声,或者在声音之间比较突然地进行跃迁,以致可以察觉出每个声音相对于相邻的声音来说是独特的。这些过程中的每一个使得利用HMM系统识别语音更加困难,因为每个技术导致语音信号的一组特征向量经常不能很好的与存在于训练数据中的特征向量相匹配。即使对应于次清晰或者过度清晰的语音的特征向量匹配于在训练数据中的那些特征向量(获得其可能是非常昂贵的),由于对于HMM系统增加的语音的混淆导致通常的HMM技术仍然不能很好的执行,这里在HMM系统中没有考虑由次清晰或者过度清晰度引起的特征向量轨道变化的主要原因。这个问题将通过本专利技术明确的提出。HMM系统处理人们说话速度的变化时也是比较困难的。因此,如果某人以比训练信号较慢或者较快的速度说话,那么HMM系统将对语音信号进行错误的解码。已经提出了HMM系统的替代物。特别的,提出可以直接将语音信号的统计定义轨道或者相关生成式参数的性能建模。由于不能直接测量相关生成式值,因此这些模型称为隐藏动态模型(HDM)。隐藏动态模型是通常所说的转换状态空间模型的一类模型的一个例子,其在一个或者多个在前的帧和一个或者多个恒定选择的帧中的参数值的基础上对当前帧的参数值建摸。HDMs的一个问题是它们难于训练,因为象预期最大化算法的通常的训练算法对于HDMs来说是难处理的。这主要是因为为了在给定输入值序列时获得适于隐藏参数序列的后验概率,必须在所有可能的语音单元序列的之中合计隐藏参数和可能的语音单元的组合的概率这个事实。这将导致计算量随着输入值的每一个附加帧而成指数规律地增加。为了克服这个问题,在先技术的一些系统在训练期间假设语音单元的固定序列。定义这个序列的语音单元之间的边界是通过利用在训练HDM之前的HMM训练设置的。这与在隐藏动态模型中的其它参数相比在理论上并不是最优的,因为语音单元的边界参数是根据不同的标准确定的。因此,需要训练系统在克服与这种训练相关联的难处理性质的时候允许边界与隐藏动态模型的其它参数一起训练。专利技术概述一种方法,其包括定义隐藏相关生成式参数的转换状态空间模型并且近似提供隐藏相关生成式参数的序列和基于输入值的语音单元序列的似然性的后验概率。在近似后验概率中,并不确定语音单元的边界。在第一个实施例中,使用高斯近似混合。在另一个实施例中,使用HMM后验近似。附图的简要说明附图说明图1是一个计算环境的框图,在该计算环境中可以实现本专利技术。图2是可供选择的计算环境的框图,在该计算环境中可以实现本专利技术。图3是在本专利技术的一个实施例中的语音识别系统的框图。实施例的详细说明图1说明了适合执行本专利技术的计算系统环境100的例子。该计算系统环境100仅仅是适合的计算环境的一个例子并不对本专利技术的使用或者功能的范围提出任何限定。计算环境100也不作为具有在典型的操作环境100中说明的元件的任一个或者组合的相关性或者需求的解释。本专利技术可以运行在大量其它的通用、专用计算系统环境或者结构中。适合与本专利技术一起使用的公知的计算系统、环境和/或结构的例子包括,但是并不限制于,个人计算机、服务器计算机、手提式的或者膝上型装置、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品、网络PC、小型计算机、大型计算机、电话系统、包括上述系统或者装置的任何一个的分布式计算环境等等。本专利技术可以在象由计算机执行的程序模块的计算机可执行指令的普通环境中得到说明。通常,程序模块包括执行特定任务或者实现特定抽象数据类型的例行程序、程序、对象、组件、数据结构等等。将本专利技术设计成可以在分布式计算环境中实现,在该分布计算环境中任务可以通过远程处理装置来执行,该远程处理装置是通过通信网络连接的。在分布式计算环境中,将程序模块定位在包括记忆体存储器的本地和远程计算存储介质两者中。参照附图1,用来实现本专利技术的示范系统包括计算机110形式的通用计算装置。计算机110的组件可以包括,但是并不限制于,处理单元120、系统存储器130以及用于将包括系统存储器的不同的系统组件与处理单元120连接的系统总线121。系统总线121可以是包括存储器总线或者存储控制器、外围总线和利用多种总线结构的任何一个的局域总线的多种类型中的任何一种。作为举例,但是并不作为限制,这种结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强的ISA(EISA)总线、视频电子标准协会(VESA)局域总线,以及也称作夹层(Mezzanine)总线的外设部件互连(PCI)总线。计算机110典型地包括多种计算机可读介质。计算机可读介质能够是可以通过计算机110访问的任何可用的介质,并且其包括易失性和非易失性介质、可拆装和不可拆装性介质。作为举例,但是并不限制于该例子,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括在用于例如计算机可读指令、数据结构、程序模块或者其它数据的信息的存储的方法和技术中的易失性的和非易失性的、可拆装的和不可拆装的介质。计算机存储介质包括,但是并不限制于,RAM、ROM、EEPROM、闪存或者其它存储器技术、CD-ROM、数字化通用光盘(DVD)或者其它的光盘存储器、磁带盒、磁带、磁盘存储器或者其它的磁存储装置、或者用于存储期望信息的并且可以通过计算机110访问的任何其它介质。通信介质一般包含计算机可读指令、数据结构、程序模块或者在已调数据信号例如载波或者其它传送机构中的其它数据,并且该通信介质包括任何信息传输介质。术语“已调数据信号”的意思是具有一个或者多个特征集的信号,或者是本文档来自技高网...

【技术保护点】
一种估计转换状态空间模型的后验概率的方法,该后验概率根据与帧序列联系在一起的输入值提供语音单元组和帧序列的隐藏参数组的似然性,其特征在于,所述方法包括:通过将单个隐藏参数概率乘到一起形成隐藏参数概率的乘积的方法部分地近似后验概率,其中每个单个隐藏参数概率,在给定帧的语音单元和给定适于帧序列的输入值的帧时,提供隐藏参数的概率;并且调整定义隐藏参数概率的参数,使隐藏参数概率提供后验概率的较好的近似。

【技术特征摘要】
US 2003-4-1 10/405,1661.一种估计转换状态空间模型的后验概率的方法,该后验概率根据与帧序列联系在一起的输入值提供语音单元组和帧序列的隐藏参数组的似然性,其特征在于,所述方法包括通过将单个隐藏参数概率乘到一起形成隐藏参数概率的乘积的方法部分地近似后验概率,其中每个单个隐藏参数概率,在给定帧的语音单元和给定适于帧序列的输入值的帧时,提供隐藏参数的概率;并且调整定义隐藏参数概率的参数,使隐藏参数概率提供后验概率的较好的近似。2.如权利要求1所述的方法,其特征在于,所述近似后验概率进一步包括用语音单元概率的乘积乘以隐藏参数概率的乘积,其中每个语音单元概率为一帧提供语音单元的概率。3.如权利要求2所述的方法,其特征在于,所述方法进一步包括调整语音单元概率,使语音单元概率提供较好的后验概率的近似。4.如权利要求2所述的方法,其特征在于,所述方法进一步包括利用后验概率的近似解码输入值,以识别帧序列的语音单元序列。5.如权利要求4所述的方法,其特征在于,所述利用的近似包括为每一帧选择语音单元是选择该帧的具有最高语音单元概率的语音单元。6.如权利要求4所述的方法,其特征在于,所述利用的近似包括将持续时间约束应用到语音单元中,并且根据持续时间约束和语音单元概率选择最好的语音单元序列。7.如权利要求1所述的方法,其特征在于,所述近似后验概率进一步包括用语音单元跃迁概率的乘积乘以隐藏参数概率的乘积,其中每个语音单元跃迁概率在给定另一帧中语音单元时,提供一帧中的语音单元的概率。8.如权利要求7所述的方法,其特征在于,所述方法进一步包括调整语音单元跃迁概率,使语音单元跃迁概率提供后验概率的较好的近似。9.如权利要求7所述的方法,其特征在于,所述方法进一步包括利用后验概率的近似解码输入值,以识别帧序列的语音单元序列。10.如权利要求9所述的方法,其特征在于,所述利用的近似包括根据语音单元跃迁概率选择语音单元序列。11.如权利要求10所述的方法,其特征在于,所述利用的近似包括将持续时间约束应用到语音单元,并且根据持续时间约束和语音单元跃迁概率选择最好的语音单元序列。12.如权利要求1所述的方法,其特征在于,所述调整定义隐藏参数概率的参数包括根据转换状态空间模型参数调整参数以产生已调整的参数。13.如权利要求12所述的方法,其特征在于,所述输入值从训练信号中产生,并且其中调整参数进一步包括根据定义隐藏参数概率的已经调整的参数调整转换状态空间模型的参数,以形成已经调整的转换状...

【专利技术属性】
技术研发人员:H埃笛亚斯LJ李邓立
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1