语音处理中基于高斯模型的动态时间弯曲系统和方法技术方案

技术编号:3046709 阅读:212 留言:0更新日期:2012-04-11 18:40
一种用于构建语音模型的方法,包括:    用从多个讲话者获得的多个发音构建声音空间模型;     通过用从至少一个讲话者得到的注册语音与声音空间模型适配构建讲话者模型;    识别与所述注册语音相关的临时结构;和    以所述讲话者的注册语音为基础构建语音模型,同时将所述注册语音的临时结构保存在所述的语音模型中。(*该技术在2023年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术主要涉及在语音处理领域内用于表示语音的模型。更确切地说,本专利技术涉及一种建模技术,其优先采用独立文本统计学声音空间建模和临时序列建模来形成支持语音和讲话者自动识别领域的建模系统和方法,所述系统和方法包括定位(spotting mode)模式,并且比传统的统计建模技术明显减少了注册数据。
技术介绍
语音建模技术目前已广泛用于从语音识别到讲话者查验/辨别等不同的应用领域。当前大多数系统使用隐式马尔科夫模型(HMM)来解决大量词汇、连续语音识别等富有挑战性的问题。隐式马尔科夫模型以多种状态来表示语音,其中每种状态对应于不同的声音单元。使用前,从识别方式公知的人类语言实例中构建一组隐式马尔科夫模型。在训练时,进行统计分析以产生存储在隐式马尔科夫模型中的概率数据。将这些概率数据存储在预先确定的状态转换模型(HMM模型)中,所述模型存储从一种状态到下一种状态的遍历似然性以及在每一种状态下产生给定声音单元的似然性。通常,以浮点数的形式存储似然数据,所述浮点数代表平均值、方差和/或加权参数等高斯参数。就训练资料的需求而言,以隐式马尔科夫模型为基础的识别系统是非常昂贵的。它们对识别系统有很高的存储器要求和处理器速度要求。此外,传统的隐式马尔科夫模型识别系统往往采用额外的端点检测形式的预处理来鉴别实际输入的语音(即,为进行识别而应检验的信号部分)和背景噪音(即,应忽略的信号部分)。在可用少量注册数据的场合,常常使用称之为动态时间弯曲(DTW)的不同技术。动态时间弯曲过程试图在先前的训练模板模型和输入的序列之间寻找“最低成本”校正(alignment)。通常,这种模型是通过下述方式构建的,即,捕捉输入的训练语音,把所述语音分解成相同尺寸的帧,然后通过例如倒频谱处理或快速傅里叶变换处理等多种公知处理技术中的一种将每一帧表示成一组声音矢量。使用时,通过抽取声音矢量和计算每个瞬时帧的分数逐帧处理输入的检验语音。预先确定引入和删除误差的惩罚值(penalties)并且选择具有最低累积分数的序列作为最好的适配。动态时间弯曲系统在跟踪瞬时语音发音序列时工作得很出色。与隐式马尔科夫模型识别器相比,它们仅需要少量的训练数据而且真正考虑了声音的临时结构信息(TSI)。然而,动态时间弯曲系统存在明显缺点。当在目标事件(例如,将要定位的目标单词)中存在大量可变性的情况下,这些系统不能很好地工作。DTW系统也很难适用于新条件。因此,当条件相对稳定时,可以有效地利用DTW系统进行包含定位应用的单词和讲话者的识别。当在目标事件(单词或讲话者)中存在很大的可变性或在遇到的环境中存在很大可变性时,所述系统将不能很好地适应。在必须进行讲话者查验/辨别的场合,常选择采用被称为高斯混合模型(GMM)的第三种建模系统。高斯混合模型实质上是一种单态隐式马尔科夫模型。逐帧捕捉输入的训练语音,并将输入的训练语音表示成一组声音矢量(例如,应用倒频谱处理或FFT处理)。搜集和组合从多个讲话者训练语音实例中得到声音矢量从而产生代表该讲话者的单个混合模型。遗憾的是,这种建模过程放弃了所有临时信息。因此,丢失了与帧到帧之间实际存在的临时结构(TSI)有关的信息。尽管上述每一种建模系统在选定的语音范围内都有其自身的位置,但是,在没有与大型配套的隐式马尔科夫模型系统相关的大量训练资料的情况下,特别是在需要提高讲话者查验/辨别特性或提高单词定位应用的特性范围内还是留下了希望改进的空间。本专利技术通过使用专用的新型建模系统实现了这种改进,所述系统能建立很好的模型模板序列信息并能很好地处理可变性,从而能容易地调节声音空间中的变化。
技术实现思路
本专利技术提供了一种新型语音建模技术,这种技术我们称之为高斯动态时间弯曲(GDW)。GDW语音模型提供了代表声音空间的上层;代表讲话者空间的中层;和代表注册语音临时结构的下层,所述注册语音建立在等空间时间间隔或帧的基础上。这三层是分级构筑的中间层与上层相连,下层与中间层相连。按照另一方面,本专利技术提供一种用于构建GDW语音模型的方法,其中,通过多个讲话者构建上层声音空间模型。然后根据声音空间模型,利用与一个讲话者(或一组讲话者)有关的注册语音构筑适合每个讲话者(或一组讲话者)的中层讲话者模型。然后,通过依次表示与对应于该事件的有效注册语音相关的每个时间间隔来构建下层的TSI(临时结构信息)。目标事件由单词(或短语)构成而且可以是单词本身(单词识别范围)或是两者(单词、讲话者辨别)(以密码为基础的讲话者识别范围)。与给定目标事件对应的GDW语音模型由三个分级连接的元素构成声音空间模型,讲话者模型和TSI(临时结构信息)模型。按照另一方面,本专利技术提供一种构建语音模型的通用方法,其中根据从多个讲话者获得的多个发音构成声音空间模型。然后,通过利用从单个讲话者或一组讲话者得到的注册语音进行声音空间模型适配来构建讲话者模型。随后通过声音空间模型构建临时结构信息模型、讲话者模型和与目标事件对应的注册语音。下面将参照以下的说明和附图来进一步理解本专利技术、本专利技术的目的和优点。附图说明通过详细的说明和附图将能更完整地理解本专利技术,其中图1是表示本专利技术所述高斯动态时间弯曲(GDW)模型主要结构的方框图;图2和图3包括表示如何构建和训练GDW模型的流程图;图4是GDW模型更详细的分级模型图,其对于理解如何将声音空间、讲话者空间和临时结构信息存储到GDW模型中是非常有用的;图5是对比模型图,其表示本专利技术的GDW模型和传统模型,例如高斯混合模型(GMM)和传统的动态时间弯曲(DTW)模型之间的一些差异;图6是时间弯曲的校正图,其对于理解如何通过优选实施例的临时序列处理系统完成DTW解码是非常有用的;和图7表示在优选实施例中对减少计算用存储器需求非常有用的帧相关加权视窗系统。具体实施例方式以下对优选实施例的说明实际上仅是示例性的,其并不试图限制本专利技术、本专利技术的应用或用途。高斯动态时间弯曲(GDW)模型优选系统和方法的核心是分级构筑的模型,我们称之为高斯动态时间弯曲(GDW)模型。如下面将更全面解释的那样,该模型的基础是统计学声音空间信息、统计学讲话者空间信息和与注册语音相关的统计学临时结构信息。因此,GDW语音模型捕捉与语音系统使用环境有关的声音空间信息。GDW模型还捕捉与提供注册语音的讲话者声音特征有关的信息。最后,GDW模型捕捉临时结构信息和与注册语音本身的发音内容有关的信息。在后一方面,诸如“赛车”等注册语音与“密西西比”(Mississippi)的发音以及与“停车场”的发音具有明显不同的TSI图形。GDW语音模型的一个极好的方面是通过针对每个临时段对高斯参数进行不同的改变来构建临时序列信息模型,所述高斯参数还用于表示声音空间和讲话者空间信息。优选的是,对于给定的临时段只选择和改变少量参数。本优选实施例代表了声音空间可变性信息、与讲话者有关的信息、和临时序列信息,其中声音空间可变性信息包含(GDW模型)上层高斯协方差参数;与讲话者有关的信息包含GDW模型中间层的高斯平均值参数,临时序列信息包含用于格式化高斯混合模型的GDW模型下层加权值。图1表示GDW方法的一般原理。如图所示,GDW模型捕捉与声音空间10有关的先前知识和与临时结构信息(临时约束)12有关的先前知识。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于构建语音模型的方法,包括用从多个讲话者获得的多个发音构建声音空间模型;通过用从至少一个讲话者得到的注册语音与声音空间模型适配构建讲话者模型;识别与所述注册语音相关的临时结构;和以所述讲话者的注册语音为基础构建语音模型,同时将所述注册语音的临时结构保存在所述的语音模型中。2.根据权利要求1所述的方法,其中通过构建一组能变换成一组帧的帧相关模型而将所述注册语音的临时结构保存到所述语音模型中。3.根据权利要求2所述的方法,其中所述一组帧具有相关的时间基准,该基准是根据所述注册语音的时间建立的并且直接保存所述注册语音的时间。4.根据权利要求1所述的方法,其中所述声音空间模型、所述讲话者模型和所述临时结构共享一个共用的等级关系。5.根据权利要求1所述的方法,其中通过统计建模构建所述声音空间模型。6.根据权利要求1所述的方法,其中通过从多个讲话者获取语音、从获得的读音中抽取特征并用高斯参数表示所抽取的特征来构建所述声音空间模型。7.根据权利要求1所述的方法,其中用隐式马尔科夫模型表示所述声音空间模型。8.根据权利要求1所述的方法,其中用高斯混合模型表示所述声音空间模型。9.根据权利要求1所述的方法,其中通过统计建模来构建所述讲话者模型,并且通过使后面的适配最大化来完成适配声音空间模型的步骤。10.根据权利要求1所述的方法,其中通过统计建模来构建所述临时结构信息模型,所述统计建模采用了适合多种注册语音发音的讲话者模型和声音空间模型。11.根据权利要求10所述的方法,其中通过构建适合多种注册语音发音中每一种发音的临时结构信息模型、然后选择最佳的临时结构信息模型来进一步建立所述临时结构信息模型。12.根据权利要求10所述的方法,进一步包括根据所述注册语音的发音来适配所述临时结构信息模型。13.一种构建语音模型的方法,包括根据从多个讲话者获得的多个发音构建声音空间模型;通过利用从至少一个讲话者得到的注册语音进行声音空间模型适配来构建讲话者模型;通过将讲话者模型表示成多个帧相关模型而构建临时结构信息模型,所述多个帧相关模型对应于与所述注册语音相关的顺序时间间隔;和通过用所述注册语音、所述讲话者模型和所述声音空间模型进行临时结构信息模型适配来构建所述的语音模型。14.根据权利要求13所述的方法,进一步包括将所述声音空间模型表示成多个高斯参数。15.根据权利要求13所述的方法,进一步包括将...

【专利技术属性】
技术研发人员:杰弗朗索瓦·波纳斯特雷菲利蒲·摩林杰克劳德·约库阿
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1