基于语音单元语速的差异的语音识别方法及语音识别系统技术方案

技术编号:5168451 阅读:238 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种基于语音单元语速的差异的语音识别方法,其包括:对所输入的语音进行预处理;提取所述语音的声学特征;基于预先训练的声学模型和所提取的所述语音的声学特征,对所述语音进行解码,以获得所述语音的多个识别结果候选,其中所述多个识别结果候选的每一个具有声学得分以及所包含的语音单元的段长;对于所述多个识别结果候选的每一个,基于所包含的语音单元的段长,计算该识别结果候选的语音单元语速差异值;基于所计算的语音单元语速差异值和声学得分,计算该识别结果候选的综合得分;以及从所述多个识别结果候选中选择所述综合得分最高的识别结果候选,作为所述语音的最终识别结果。此外,本发明专利技术还提供了相应的语音识别系统。

【技术实现步骤摘要】

本专利技术涉及语音识别技术,具体地,涉及根据语音单元语速的差异而进行语音 识别的方法及相应的语音识别系统。
技术介绍
通常,语音识别过程可包括语音信号的预处理、声学特征的提取和搜索解码 等。在进行语音识别时,首先对输入的语音信号进行预处理,其包括预滤波、采样和量 化、加窗分帧、端点检测、预加重等。然后,对预处理后的语音信号进行特征提取,以 获得线性预测系数LPC、倒谱系数CEP、Mel倒谱系数MFCC和感知线性预测PLP等声 学特征。根据所获得的声学特征以及预先训练的声学模型,使用诸如Viterbi算法的搜索 策略对语音信号进行解码,以获得相应的识别结果。在语音识别的过程中,段长信息由于不受噪声或信道的影响,因此对于语音识 别的稳健性非常重要。在现有的利用段长信息进行语音识别的方法中,常见的是对语音 单元(例如状态、音素、词等)段长用随机分布(例如正态分布、Y分布、高斯混合模 型GMM等)进行显式建模,然后将段长得分结合声学得分一起进行语音的解码。这样 的方法能够在一定程度上提高语音识别的性能。例如,在 David Burshtern 所著的文章Robust Parametric Modeling of Durations in Hidden Markov Models,,(发表于 International Conference on Acoustics, Speech and Signal Processing(ICASSP), 1995)中详细地描述了使用γ分布对状态建模的方案。在D.Povey 所著的文章Phone Duration Modeling for LVCSR” (发表于 International Conference on Acoustics, Speech and Signal Processing(ICASSP),2004)中详细地描述了使用离散分布 对音素建模的方案。然而,段长信息本身容易受到语速的影响,因此,将语速信息加入段长模型中 可以进一步提高语音识别的性能。然而,如何在语音识别中同时考虑段长信息和语速信 息而不增加时间和内存消耗成为研究的重点。现有的将语速信息加入段长模型的方法的基本思想是除去语速对段长模型的负 面影响。—种常用的方法是用语速对段长进行归一化处理,其中语速被定义为一句话内 所有语音单元的平均段长。然而,由于语速只有在获得整句话才能计算,因此,无法在 识别过程中实时地进行段长的归一化。关于这种利用语速对段长归一化的方法,在Gadde 和 V+R.R.所著的文章 ‘‘Modeling Word Duration for Better Speech Recognition” (Proc.Of Speech Transcription Workshop, 2000)中进行了详细的描述。另一种方法是对不同语速的段长分别建模,例如,对高语速、中语速和慢语速 各自建一个模型,然后在识别过程中,选择得分最高的模型。然而,这些模型的精确度 不高,并且由于需要分别计算三种模型的概率,因此,将大幅增加计算量和计算时间。 关于这种对不同语速分别建模的方法,在Yun Tang、Wenju Liu和Bo Xu所著的文章“Trigram Duration Modeling in Speech Recognition” (发表于 International Symposium on Chinese Spoken Language Processing, 2004)以及 Wern-Jun Wang 禾口 Chun—Jen Lee 所著的文 章Duration Modeling for Mandarin Speech Recognition Using Prosodic Information, Speech Prosody(发表于2004)中都进行了详细的描述。另一种段长归一化方法是利用前一个语音单元段长对当前语音单元段长进行归 一化,然而,在该方法中,需要预先计算并存储所有可能的两个上下文语音单元的归一 化段长模型,因此,内存消耗较大。这种方法在美国专利US patent: Masahide Arui, Shinichi Tanaka,Takashi Masuko, Apparatus, Method and Computer Program Product for Speech Recognition”中进行了详细的描述。
技术实现思路
本专利技术正是基于以上技术问题而提出的,其目的在于提供一种基于语音单元语 速的差异的语音识别方法以及语音识别系统,其考虑了语速对于段长的影响,能够提高 语音识别性能,但无需对段长进行建模,并且内存消耗和计算时间都很小。根据本专利技术的一个方面,提供一种基于语音单元语速的差异的语音识别方法, 包括对所输入的语音进行预处理;提取所述语音的声学特征;基于预先训练的声学模 型和所提取的所述语音的声学特征,对所述语音进行解码,以获得所述语音的多个识别 结果候选,其中所述多个识别结果候选的每一个具有声学得分以及所包含的语音单元的 段长;对于所述多个识别结果候选的每一个,基于所包含的语音单元的段长,计算该识 别结果候选的语音单元语速差异值;基于所计算的语音单元语速差异值和声学得分,计 算该识别结果候选的综合得分;以及从所述多个识别结果候选中选择所述综合得分最高 的识别结果候选,作为所述语音的最终识别结果。根据本专利技术的另一个方面,提供一种基于语音单元语速的差异的语音识别系 统,包括语音处理模块,用于对所输入的语音进行预处理;特征提取模块,用于提 取所述语音的声学特征;解码模块,用于基于预先训练的声学模型和所提取的所述语音 的声学特征,对所述语音进行解码,以获得所述语音的多个识别结果候选,其中所述多 个识别结果候选的每一个具有声学得分以及所包含的语音单元的段长;语音单元语速差 异值计算模块,用于对于所述多个识别结果候选的每一个,基于所包含的语音单元的段 长,计算该识别结果候选的语音单元语速差异值;综合得分计算模块,用于对于所述多 个识别结果候选的每一个,基于所计算的语音单元语速差异值和声学得分,计算该识别 结果候选的综合得分;以及选择模块,用于从所述多个识别结果候选中选择所述综合得 分最高的识别结果候选,作为所述语音的最终识别结果。附图说明图1是根据本专利技术的一个实施例的基于语音单元语速的差异的语音识别方法的 流程图;图2是根据本专利技术的第一个实施例的基于语音单元语速的差异的语音识别系统 的示意性方框图;图3是根据本专利技术的第二个实施例的基于语音单元语速的差异的语音识别系统的示意性方框图;图4是根据本专利技术的第三个实施例的基于语音单元语速的差异的语音识别系统 的示意性方框图;图5是根据本专利技术的第四个实施例的基于语音单元语速的差异的语音识别系统 的示意性方框图。具体实施例方式通过以下结合附图对本专利技术的具体实施例的详细描述,本专利技术的上述和其它发 明目的、技术特征和优点,将会更加明显。图1示出了根据本专利技术的一个实施例的基于语音单元语速的差异的语音识别方 法的流程图。下面结合附图,对本实施例进行详细的描述。在本实施例中,假定一句话内的语速是稳定的,即一句话内每个语音单元的语 速基本文档来自技高网
...

【技术保护点】
一种基于语音单元语速的差异的语音识别方法,包括:  对所输入的语音进行预处理;提取所述语音的声学特征;基于预先训练的声学模型和所提取的所述语音的声学特征,对所述语音进行解码,以获得所述语音的多个识别结果候选,其中所述多个识别结果候选的每一个具有声学得分以及所包含的语音单元的段长;对于所述多个识别结果候选的每一个,基于所包含的语音单元的段长,计算该识别结果候选的语音单元语速差异值;基于所计算的语音单元语速差异值和声学得分,计算该识别结果候选的综合得分;以及从所述多个识别结果候选中选择所述综合得分最高的识别结果候选,作为所述语音的最终识别结果。

【技术特征摘要】
1.一种基于语音单元语速的差异的语音识别方法,包括 对所输入的语音进行预处理;提取所述语音的声学特征;基于预先训练的声学模型和所提取的所述语音的声学特征,对所述语音进行解码, 以获得所述语音的多个识别结果候选,其中所述多个识别结果候选的每一个具有声学得 分以及所包含的语音单元的段长;对于所述多个识别结果候选的每一个,基于所包含的语音单元的段长,计算该识别结果候选的语音单元语速差异值; 基于所计算的语音单元语速差异值和声学得分,计算该识别结果候选的综合得分;以及从所述多个识别结果候选中选择所述综合得分最高的识别结果候选,作为所述语音 的最终识别结果。2.根据权利要求1所述的语音识别方法,其中,所述计算该识别结果候选的语音单元 语速差异值的步骤包括对于该识别结果候选中的每一个语音单元,计算该语音单元的语速,其中所述语速 是该语音单元的段长与语音库中对应的语音单元的平均段长的比值;以及计算所有语音单元的语速中最大值与最小值的差值,作为该识别结果候选的语音单 元语速差异值。3.根据权利要求1所述的语音识别方法,其中,所述计算该识别结果候选的语音单元 语速差异值的步骤包括对于该识别结果候选中的每一个语音单元,计算该语音单元的语速,其中所述语速 是该语音单元的段长与语音库中对应的语音单元的平均段长的比值;以及计算所有语音单元的语速的方差,作为该识别结果候选的语音单元语速差异值。4.根据权利要求1所述的语音识别方法,其中,所述计算该识别结果候选的语音单元 语速差异值的步骤包括对于该识别结果候选中的每一个语音单元,计算该语音单元的语速,其中所述语速 是该语音单元的段长与语音库中对应的语音单元的平均段长的比值;以及计算所有语音单元的语速的标准差,作为该识别结果候选的语音单元语速差异值。5.根据权利要求1所述的语音识别方法,其中,所述计算该识别结果候选的语音单元 语速差异值的步骤包括对于该识别结果候选中的每一个语音单元,计算该语音单元的语速,其中所述语速 是该语音...

【专利技术属性】
技术研发人员:赵蕤鄢翔何磊
申请(专利权)人:株式会社东芝
类型:发明
国别省市:JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1