当前位置: 首页 > 专利查询>微软公司专利>正文

用于识别连续和分立语音的语音识别系统技术方案

技术编号:3047473 阅读:197 留言:0更新日期:2012-04-11 18:40
通过接收表示多个离散地说出的训练字的分立语音训练数据(步骤98),以及接收表示多个连续地说出的训练字的连续语音训练数据(步骤86)而执行语音识别。多个语音单元模型是根据分立语音训练数据和连续语音训练数据而训练的。语音是根据被训练的语音单元而识别的。(*该技术在2018年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及计算机语音识别。更具体来说,本专利技术涉及一种识别连续和分立语音的方法。当前最成功的语音识别系统采用称为隐藏的马尔可夫模型(HMM)的概率模型。隐藏的马尔可夫模型包括多个状态,其中转移概率是为从每个状态转移到另一个状态而确定的,包括转移到相同的状态。一个观测被随机地与每个唯一的状态相关联。状态之间的转移概率(一个观测将从一个状态转变为另一个状态的概率)并不都是相同的。因此,给定状态之间的转移概率和观测概率,采用象维特比算法这样的搜索技术,以确定整体概率为最大值的最相似的状态序列。在当前语音识别系统中,语音已经被看作为通过隐藏的马尔可夫过程而产生。因此,HMM被用于模拟语音波谱的观测序列,其中特定波谱被随机地与在一个HMM中的状态相关联。换句话说,对于给定的语音波谱的观测序列,在此有一个相应HMM中的最相似序列。因此,该相应的HMM与观测的序列相关联,该技术可以被扩展,使得如果每个在HMM中的状态的独特序列与一个子字单元相关联,该单元例如一个音素,则可以找到子字单元的最相似序列。另外,利用结合子字单元以形成字的模型,然后利用结合字以形成句子的模型,则可以实现完整的语音识别。当实际处理声音信号时,信号一般在称为帧的连续时间间隔中采样。该帧一般包括多个样本,并且可以重叠或相邻。每个帧与该语音信号的一个唯一部分相关联。由每个帧所表示的该语音信号的部分被分析以提供一个相应的声音矢量。在语音识别过程中,执行语音单元模型的搜索以确定最可能与声音矢量的序列相关的状态序列。为了查找对应于声音矢量序列的最相拟的状态序列,可以采用维特比算法。维特比算法执行一个计算,它以时间同步方式从第一帧开始并且在一个时刻处理一帧。对在被考虑的状态序列(即,在HMM中)中的每个状态计算一个概率值。因此,当维特比算法一帧接一帧地分析声音信号时,对每个可能状态序列连续计算累积概率值。在话音结束时,具有通过维特比算法计算的最高概率值的状态序列(或者HMM或一系列HMM)为整段话音提供最相似的状态序列。然后最相似的状态序列被转换为一个相应的说出的子字单元、字或字序列。维特比算法把指数计算减少为一次,即与在模型中的状态和转变数与话音的长度成正比。但是,对于大的词汇量,状态和转变的数目变大,并且为所有可能状态序列在每个帧中更新在每个状态的概率值所需的计算量占用比一帧的持续时间更长的许多时间,一帧的持续时间一般约为10微秒。因此,一种称为删减或者波束搜索的技术被研制出来以大大地减少确定最相似状态序列所需的计算量。这种类型的技术消除了为极其不可能的状态序列计算概率值的需要。这一般是在每帧中通过把对于每个所考虑的剩余状态序列(或者潜在的序列)的概率值与该帧相关的最高值相比较而实现的。如果对于一个特定潜在序列的状态的概率值足够低(当在该时间点处与其它潜在序列的最大计算的概率值相比较时),该删减算法假设这种低分值状态序列不大可能是完整的最可能状态序列的一部分。该比较一般是通过利用最小阈值而完成的。具有落在该最小阈值之下的分值的潜在状态序列被从搜索过程中除去。该阈值可以被设在任何所需水平上,这主要根据所需的节省存储量和计算量,以及由于节省存储量和计算量所造成的所期望错误率的增加而确定。保持状态序列将被称为有效假设。另一个用于进一步减少语音识别所需的计算量的常规技术包括使用前缀树。前缀树表示作为树型结构的语音识别系统的词语,其中可能被该系统所遇到的所有词被表示在该树结构中。在这种前缀树中,每个子字单元(例如一个音素)一般由一个与特定的声音模型(例如HMM)相关联的分支所表示。该音素分支在节点处连接到后续的音素分支。在该共用相同的第一音素的词典中的所有词都共用相同的第一分支。通过比较,具有共同第一音素,但是具有不同第二音素的字共用在该前缀树中的相同第一分支,但是具有在该前缀树中在第一节点处分离的第二分支,如此等等。该树型结构按这种方式继续,使得可能被该系统所遇到的所有字都由树的末端节点所表示(即,树上的叶节点)。显然,通过采用前缀树结构,最初分支的数目将远少于在系统的词典或字典中的字的一般数目。实际上,最初分支的数目不可能超过音素的总数(约为40-50个),而与被搜索的字典或词典的大小无关。尽管如果使用音位变体的变化,则分支的最初数目可以较大,这取决于所用的音位变体。采用上述技术的语音识别系统一般可以分为两类。第一类是能够识别流畅的语音的连续语音识别系统(CSR)。该CSR系统被根据连续语音数据而训练(即,开发语音模型),其中一个或多个读者用连续或流畅的方式把训练数据读到系统中。在训练过程中开发的声音模型被用于识别语音。第二类系统是一般用于识别分立语音(或者离散语音)的分立语音识别系统(ISR)。ISR系统被根据离散或分立语音数据而训练,其中一个或多个读者被要求用在每个词之间具有停顿的离散或分立方式把训练数据读到系统中。ISR系统一般比连续语音识别系统更加准确和有效,因为字词边界更加确定并且搜索范围相应地更加缩小。并且,分立语音识别系统被认为是连续语音识别的特殊情况,因为连续语音识别系统通过也可以接受分立语音。它们在识别分立语音时只是效果不那么好而已。观察表明,CSR系统的用户一般趋向于流畅的说话,直到系统开始出错,或者直到用户考虑文章的结构为止。在这一点,,通常达到在字词之间停顿的时刻,用户可能减慢。在这两种情况下,用户相信通过说话更慢和更加清楚,并且在字词之间具有停顿,则将有助于该识别系统,而实际上用户迫使系统超出了它的能力范围。但是,用分立语音识别系统来尝试识别连续语音是不合适的。当尝试识别连续语音时,ISR系统一般比CSR系统差得多。这是因为在ISR训练数据中没有连读。语音识别是通过接收表示多个离散地读出的训练字词的分立语音训练数据而完成,并且通过接收表示多个连续地读出的训练字的连续语音训练数据而完成。多个语音单元模型是根据离散语音训练数据和连续语音训练数据而训练的。语音是根据被训练的语音单元模型而识别的。在一个优选实施例中,在要被识别的语音中的停顿被识别以确定一个短语的持续时间。多个短语假设被产生,它表示在停顿之间的输入数据所代表的相似短语。与在每个短语假设中的每个字相关的字的持续时间与对于具有与短语假设中字的数目相等的字数的短语的期望字的持续时间相比较。根据字的持续时间与期望的字的持续时间的比较,把一个分值分配给每个短语假设。附图说明图1为根据本专利技术用于实现语音识别系统的典型环境的方框图。图2为图1中所示的系统的一部分的更加具体的方框图。图3为示出根据本专利技术一个方面的数据采集程序的流程图。图4为示出根据本专利技术一个方面的声音模型的训练和使用组合训练数据的句音素(senone)映射的流程图。图5为示出根据本专利技术的句音素树的产生的流程图。图6为示出根据本专利技术的句音素树的示意图。图7为示出根据本专利技术的字持续时间模型的产生的流程图。图8为示出根据图7所示的程序产生的多个字持续时间模型的示意图。图9为示出根据本专利技术一个方面的语音识别程序的一部分的流程图。图10为示出根据本专利技术一个方面的字持续时间模型的应用的流程图。图1和相关讨论用于提供一个可以实现本专利技术的适当的计算环境的简要和一般的描述。尽管不是必须的,但是本专利技术将至少部分地在象程序模本文档来自技高网...

【技术保护点】
一种实现语音识别系统的方法,包括: 接收表示多个离散地读出的训练字的分立语音训练数据; 接收表示多个连续地读出的训练字的连续语音训练数据; 提供根据分立语音训练数据和连续语音训练数据训练的多个语音单元模型;以及 提供一个根据训练的语音单元模型识别语音的识别器。

【技术特征摘要】
US 1997-9-19 08/934,6221.一种实现语音识别系统的方法,包括接收表示多个离散地读出的训练字的分立语音训练数据;接收表示多个连续地读出的训练字的连续语音训练数据;提供根据分立语音训练数据和连续语音训练数据训练的多个语音单元模型;以及提供一个根据训练的语音单元模型识别语音的识别器。2.根据权利要求1所述的方法,其特征在于,接收分立语音训练数据包括接收第一组声音信号,其中接收连续语音训练数据包括接收第二组声音信号,并且其中提供多个语音单元模型包括根据第一和第二组声音信号开发多个声学模型。3.根据权利要求2所述的方法,其特征在于,开发多个声学模型包括根据第一和第二组语音信号,开发表示在连续和分立语音训练数据中的音素的多个输出概率分布。4.根据权利要求1所述的方法,其特征在于,接收分立语音训练数据包括接收包括与多个离散地读出的训练字相关的静音上下文信息的分立语音数据。5.根据权利要求4所述的方法,其特征在于,接收分立语音数据包括接收表示用户离散地读出多个训练字的分立语音数据,在多个训练字的每一个之间具有停顿。6.根据权利要求1所述的方法,其特征在于,接收连续语音训练数据包括接收表示用户流畅读出多个训练字的连续语音数据。7.根据权利要求1所述的方法,其中还包括在训练语音单元模型之前,根据要被识别的所希望语音对连续语音训练数据和分立语音训练数据加权。8.根据权利要求1所述的方法,其中还包括接收表示用户用不同方式读出多个训练字的其它语音训练数据。9.根据权利要求8所述的方法,其特征在于,接收其它语音训练数据包括接收表示用户以第一幅度和第二幅度读出多个训练字的其它语音训练数据,该第二幅度大于第一幅度。10.根据权利要求8所述的方法,其特征在于,接收其它语音训练数据包括接收表示用户以第一速度和第二速度流利读出多个训练字的其它语音训练数据,该第二速度比第一速度更快。11.根据权利要求3所述的方法,其特征在于,提供多个语音单元模型,还包括把每个输出分布与形成一个训练字的至少一部分的音素中的预定数目的状态中的一个相关联。12.根据权利要求11所述的方法,其中还包括对于每个音素,从所有包含所选音素的训练字中分组出与一个所选音素相关的输出分布,以形成一个输出分布组;以及对于每个音素中的每个状态,通过根据与所选音素相关联的语言环境信息把与在输出分布组中的所选状态相关联的输出分布分为句音素,而为所选音素中的所选状态产生一个句音素树。13.根据权利要求12所述的方法,其特征在于,提供一个用于识别语音的识别器,包括配置该语音识别器,以执行如下步骤接收对于要被识别的目标字中的每个连续目标音素的每个连续状态的输出分布;对于每个目标音素,识别作为目标音素的最近似表示的多个相似音素;把与相似音素状态相关的句音素与相关于目标音素的相应状态的输出分布相比较;以及识别具有最接近匹配目标音素的输出分布的句音素的最相似音素。14.根据权利要求13所述的方法,其特征在于,该比较包括根据目标音素的语言环境信息,遍历与在每个相似音素中的每个状态相关的句音素树,以对目标音素中的每个状态识别一个句音素;以及把相关于在目标音素中的状态的输出分布与相关于在相似音素中的所识别句音素的输出分布相比较。15.根据权利要求13所述的方法,其特征在于,识别多个相似音素包括根据分立语音训练数据和连续语音训练数据,形成多个单音素模型,表示训练字中的音素;把相关于目标...

【专利技术属性】
技术研发人员:学东D黄菲莱诺A阿莱瓦江丽黄梅玉
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1