基于语音单元语速的差异的语音识别方法及语音识别系统技术方案

技术编号：5168451 阅读：238 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种基于语音单元语速的差异的语音识别方法，其包括：对所输入的语音进行预处理；提取所述语音的声学特征；基于预先训练的声学模型和所提取的所述语音的声学特征，对所述语音进行解码，以获得所述语音的多个识别结果候选，其中所述多个识别结果候选的每一个具有声学得分以及所包含的语音单元的段长；对于所述多个识别结果候选的每一个，基于所包含的语音单元的段长，计算该识别结果候选的语音单元语速差异值；基于所计算的语音单元语速差异值和声学得分，计算该识别结果候选的综合得分；以及从所述多个识别结果候选中选择所述综合得分最高的识别结果候选，作为所述语音的最终识别结果。此外，本发明专利技术还提供了相应的语音识别系统。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语音识别技术，具体地，涉及根据语音单元语速的差异而进行语音识别的方法及相应的语音识别系统。
技术介绍
通常，语音识别过程可包括语音信号的预处理、声学特征的提取和搜索解码等。在进行语音识别时，首先对输入的语音信号进行预处理，其包括预滤波、采样和量化、加窗分帧、端点检测、预加重等。然后，对预处理后的语音信号进行特征提取，以获得线性预测系数LPC、倒谱系数CEP、Mel倒谱系数MFCC和感知线性预测PLP等声学特征。根据所获得的声学特征以及预先训练的声学模型，使用诸如Viterbi算法的搜索策略对语音信号进行解码，以获得相应的识别结果。在语音识别的过程中，段长信息由于不受噪声或信道的影响，因此对于语音识别的稳健性非常重要。在现有的利用段长信息进行语音识别的方法中，常见的是对语音单元(例如状态、音素、词等)段长用随机分布(例如正态分布、Y分布、高斯混合模型GMM等)进行显式建模，然后将段长得分结合声学得分一起进行语音的解码。这样的方法能够在一定程度上提高语音识别的性能。例如，在 David Burshtern 所著的文章Robust Parametric Modeling of Durations in Hidden Markov Models，，(发表于 International Conference on Acoustics, Speech and Signal Processing(ICASSP), 1995)中详细地描述了使用γ分布对状态建模的方案。在D.Povey 所著的文章Phone Duration Modeli...

【技术保护点】
一种基于语音单元语速的差异的语音识别方法，包括：　　对所输入的语音进行预处理；提取所述语音的声学特征；基于预先训练的声学模型和所提取的所述语音的声学特征，对所述语音进行解码，以获得所述语音的多个识别结果候选，其中所述多个识别结果候选的每一个具有声学得分以及所包含的语音单元的段长；对于所述多个识别结果候选的每一个，基于所包含的语音单元的段长，计算该识别结果候选的语音单元语速差异值；基于所计算的语音单元语速差异值和声学得分，计算该识别结果候选的综合得分；以及从所述多个识别结果候选中选择所述综合得分最高的识别结果候选，作为所述语音的最终识别结果。

【技术特征摘要】
1.一种基于语音单元语速的差异的语音识别方法，包括对所输入的语音进行预处理；提取所述语音的声学特征；基于预先训练的声学模型和所提取的所述语音的声学特征，对所述语音进行解码，以获得所述语音的多个识别结果候选，其中所述多个识别结果候选的每一个具有声学得分以及所包含的语音单元的段长；对于所述多个识别结果候选的每一个，基于所包含的语音单元的段长，计算该识别结果候选的语音单元语速差异值；基于所计算的语音单元语速差异值和声学得分，计算该识别结果候选的综合得分；以及从所述多个识别结果候选中选择所述综合得分最高的识别结果候选，作为所述语音的最终识别结果。2.根据权利要求1所述的语音识别方法，其中，所述计算该识别结果候选的语音单元语速差异值的步骤包括对于该识别结果候选中的每一个语音单元，计算该语音单元的语速，其中所述语速是该语音单元的段长与语音库中对应的语音单元的平均段长的比值；以及计算所有语音单元的语速中最大值与最小值的差值，作为该识别结果候选的语音单元语速差异值。3.根据权利要求1所述的语音识别方法，其中，所述计算该识别结果候选的语音单元语速差异值的步骤包括对于该识别结果候选中的每一个语音单元，计算该语音单元的语速，其中所述语速是该语音单元的段长与语音库中对应的语音单元的平均段长的比值；以及计算所有语音单元的语速的方差，作为该识别结果候选的语音单元语速差异值。4.根据权利要求1所述的语音识别方法，其中，所述计算该识别结果候选的语音单元语速差异值的步骤包括对于该识别结果候选中的每一个语音单元，计算该语音单元的语速，其中所述语速是该语音单元的段长与语音库中对应的语音单元的平均段长的比值；以及计算所有语音单元的语速的标准差，作为该识别结果候选的语音单元语速差异值。5.根据权利要求1所述的语音识别方法，其中，所述计算该识别结果候选的语音单元语速差异值的步骤包括对于该识别结果候选中的每一个语音单元，计算该语音单元的语速，其中所述语速是该语音...

【专利技术属性】
技术研发人员：赵蕤，鄢翔，何磊，
申请(专利权)人：株式会社东芝，
类型：发明
国别省市：JP

全部详细技术资料下载我是这个专利的主人