一种多语言混合语音识别方法技术

技术编号:18897324 阅读:31 留言:0更新日期:2018-09-08 12:20
本发明专利技术公开了一种多语言混合语音识别方法,属于语音识别技术领域;方法包括:步骤S1,配置一包括多种不同语言的多语言混合词典;步骤S2,根据多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型;步骤S3,根据包括多种不同语言的多语言文本语料训练形成一语言识别模型;步骤S4,采用多语言混合词典、声学识别模型以及语言识别模型形成语音识别系统;随后,采用语音识别系统对混合语音进行识别,并输出对应的识别结果。上述技术方案的有益效果是:能够支持多种语言混合语音的识别,提升识别的准确率和效率,因此提高语音识别系统的性能。

A multilingual hybrid speech recognition method

The invention discloses a multilingual mixed speech recognition method which belongs to the field of speech recognition technology; the method comprises: 1) configuring a multilingual mixed dictionary comprising a variety of different languages; 2) forming an acoustic recognition according to a multilingual mixed dictionary and training multilingual speech data including a variety of different languages. Model 1. A language recognition model is formed by training multi-lingual text corpus including many different languages; C4. A speech recognition system is formed by using multi-lingual mixed dictionary, acoustic recognition model and language recognition model; and then, a speech recognition system is used to recognize mixed speech and output corresponding speech. Recognition results. The beneficial effect of the above technical scheme is that it can support multi-language mixed speech recognition, improve the accuracy and efficiency of recognition, and thus improve the performance of speech recognition system.

【技术实现步骤摘要】
一种多语言混合语音识别方法
本专利技术涉及语音识别
,尤其涉及一种多语言混合语音识别方法。
技术介绍
在日常说话的表达中,人们往往在无意中使用一种语言中夹杂另一种或者另几种语言的表达方式,例如一些英文单词在中文中会直接沿用其原本名字,例如“ipad”、“iphone”、“USB”等专有名词,因此会造成中英文混杂的现象,这种现象会给语音识别带来一定的困难和挑战。早期的多语言混合语音识别系统的识别原理是分别建立单独的语音识别系统,然后将混合语音切开,并将不同语种的语音片段分别送入对应的语音识别系统中进行识别,最后再将各个语音片段的识别结果合并,以形成混合语音的识别结果。这种识别方法一方面很难保证按照语种对混合语音进行切分的准确性,另一方面每个被切分后形成的语音片段的上下文信息太短,从而影响识别准确率。近年来,多语言混合语音的识别方法的做法开始发生变化,具体为将单独的语音识别系统进行词典扩充,即使用一种语言的音子集去拼凑另一种语言,例如英语中的“iphone”在中文词典中的发音会被拼凑成“爱疯”。这样的识别方法虽然能够识别出个别不同语种的词汇,但是一方面要求使用者的发音非常怪异(例如“iphone”必须准确发成“爱疯”),另一方面在识别整句混合语音的准却率会大幅下降。
技术实现思路
根据现有技术中存在的上述问题,现提供一种多语言混合语音识别方法的技术方案,旨在支持多种语言混合语音的识别,提升识别的准确率和效率,因此提高语音识别系统的性能。上述技术方案具体包括:一种多语言混合语音识别方法,其中,首先形成用于识别多语言的混合语音的语音识别系统,形成所述语音识别系统的方法包括:步骤S1,配置一包括多种不同语言的多语言混合词典;步骤S2,根据所述多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型;步骤S3,根据包括多种不同语言的多语言文本语料训练形成一语言识别模型;步骤S4,采用所述多语言混合词典、所述声学识别模型以及所述语言识别模型形成所述语音识别系统;随后,采用所述语音识别系统对所述混合语音进行识别,并输出对应的识别结果。优选的,该多语言混合语音识别方法,其中,所述步骤S1中,采用三音子建模的方式,根据分别对应每种不同语言的单语言词典配置所述多语言混合词典。优选的,该多语言混合语音识别方法,其中,所述步骤S1中,采用三音子建模的方式配置所述多语言混合词典;在配置所述多语言混合词典时,对所述多语言混合词典中包括的每种所语言的音子前分别添加一对应的语种标记,以将多种不同语言的音子进行区分。优选的,该多语言混合语音识别方法,其中,所述步骤S2具体包括:步骤S21,根据多种不同语言混合的多语言语音数据以及所述多语言混合词典训练形成一声学模型;步骤S22,对所述多语言语音数据提取语音特征,并采用所述声学模型对所述语音特征进行帧对齐操作,以获得每一帧所述语音特征所对应的输出标签;步骤S23,将所述语音特征作为所述声学识别模型的输入数据,以及将所述语音特征对应的所述输出标签作为所述声学识别模型的输出层中的输出标签,以训练形成所述声学识别模型。优选的,该多语言混合语音识别方法,其中,所述声学模型为隐马尔可夫-高斯混合模型。优选的,该多语言混合语音识别方法,其中,所述步骤S23中,对所述声学识别模型进行训练后,对所述声学识别模型的所述输出层进行调整,具体包括:步骤S231,分别计算得到每种语言的先验概率,以及计算得到所有种类的语言公用的静音的先验概率;步骤S232,分别计算得到每种语言的后验概率,以及计算得到所述静音的后验概率;步骤S233,根据每种语言的先验概率和后验概率,以及所述静音的先验概率和后验概率,调整所述声学识别模型的所述输出层。优选的,该多语言混合语音识别方法,其中,所述步骤S231中,依照下述公式分别计算得到每种语言的先验概率:其中,用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;用于表示所述多语言语音数据中所述输出标签为的先验概率;用于表示所述多语言语音数据中所述输出标签为的总数;用于表示所述多语言语音数据中的所述静音的第i种状态的所述输出标签;用于表示所述多语言语音数据中所述输出标签为的总数;Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;Msil用于表示所述多语言语音数据中的所述静音的状态的总数。优选的,该多语言混合语音识别方法,其中,所述步骤S231中,依照下述公式计算得到所述静音的先验概率:其中,用于表示所述多语言语音数据中的所述静音的第i种状态的所述输出标签;用于表示所述多语言语音数据中所述输出标签为的先验概率;用于表示所述多语言语音数据中所述输出标签为的总数;用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;用于表示所述多语言语音数据中所述输出标签为的总数;Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;Msil用于表示所述多语言语音数据中的所述静音的状态的总数;L用于表示所述多语言语音数据中的所有语言。优选的,该多语言混合语音识别方法,其中,所述步骤S232中,依照下述公式分别计算得到每种语言的后验概率:其中,用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;x用于表示所述语音特征;用于表示所述多语言语音数据中所述输出标签为的后验概率;用于表示所述多语言语音数据中第j种语言的第i个状态的所述输入数据;用于表示所述静音的第i种状态的所述输入数据;Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;Msil用于表示所述多语言语音数据中的所述静音的状态的总数;exp用于表示指数函数计算方式。优选的,该多语言混合语音识别方法,其中,所述步骤S232中,依照下述公式计算得到所述静音的后验概率:其中,用于表示所述多语言语音数据中的所述静音的第i种状态的所述输出标签;x用于表示所述语音特征;用于表示所述多语言语音数据中所述输出标签为的后验概率;用于表示所述多语言语音数据中第j种语言的第i个状态的所述输入数据;用于表示所述静音的第i种状态的所述输入数据;Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;Msil用于表示所述多语言语音数据中的所述静音的状态的总数;L用于表示所述多语言语音数据中的所有语言;exp用于表示指数函数计算方式。优选的,该多语言混合语音识别方法,其中,所述步骤S2中,所述声学识别模型为深度神经网络的声学模型。优选的,该多语言混合语音识别方法,其中,所述步骤S3中,采用n-Gram模型训练形成所述语言识别模型,或者采用递归神经网络训练形成所述语言识别模型。优选的,该多语言混合语音识别方法,其中,形成所述语音识别系统后,首先对所述语音识别系统中不同种类的语言进行权重调整;进行所述权重调整的步骤包括:步骤A1,根据真实语音数据分别确定每种语言的后验概率权重值;步骤A2,根据所述后验概率权重值,分别调整每种语言的后验概率,以完成所述权重调整。优选的,该多语言混合语音识别方法,其中,所述步骤A2中,依照下述公式进行所述权重调整:其中,用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;x用于表示所述语音特征;用于表示所述多语言语音数据中所述输出标签为的后验概率;a本文档来自技高网...

【技术保护点】
1.一种多语言混合语音识别方法,其特征在于,首先形成用于识别多语言的混合语音的语音识别系统,形成所述语音识别系统的方法包括:步骤S1,配置一包括多种不同语言的多语言混合词典;步骤S2,根据所述多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型;步骤S3,根据包括多种不同语言的多语言文本语料训练形成一语言识别模型;步骤S4,采用所述多语言混合词典、所述声学识别模型以及所述语言识别模型形成所述语音识别系统;随后,采用所述语音识别系统对所述混合语音进行识别,并输出对应的识别结果。

【技术特征摘要】
1.一种多语言混合语音识别方法,其特征在于,首先形成用于识别多语言的混合语音的语音识别系统,形成所述语音识别系统的方法包括:步骤S1,配置一包括多种不同语言的多语言混合词典;步骤S2,根据所述多语言混合词典以及包括多种不同语言的多语言语音数据训练形成一声学识别模型;步骤S3,根据包括多种不同语言的多语言文本语料训练形成一语言识别模型;步骤S4,采用所述多语言混合词典、所述声学识别模型以及所述语言识别模型形成所述语音识别系统;随后,采用所述语音识别系统对所述混合语音进行识别,并输出对应的识别结果。2.如权利要求1所述的多语言混合语音识别方法,其特征在于,所述步骤S1中,采用三音子建模的方式,根据分别对应每种不同语言的单语言词典配置所述多语言混合词典。3.如权利要求1所述的多语言混合语音识别方法,其特征在于,所述步骤S1中,采用三音子建模的方式配置所述多语言混合词典;在配置所述多语言混合词典时,对所述多语言混合词典中包括的每种所语言的音子前分别添加一对应的语种标记,以将多种不同语言的音子进行区分。4.如权利要求1所述的多语言混合语音识别方法,其特征在于,所述步骤S2具体包括:步骤S21,根据所述多语言语音数据以及所述多语言混合词典训练形成一声学模型;步骤S22,对所述多语言语音数据提取语音特征,并采用所述声学模型对所述语音特征进行帧对齐操作,以获得每一帧所述语音特征所对应的输出标签;步骤S23,将所述语音特征作为所述声学识别模型的输入数据,以及将所述语音特征对应的所述输出标签作为所述声学识别模型的输出层中的输出标签,以训练形成所述声学识别模型。5.如权利要求4所述的多语言混合语音识别方法,其特征在于,所述声学模型为隐马尔可夫-高斯混合模型。6.如权利要求4所述的多语言混合语音识别方法,其特征在于,所述步骤S23中,对所述声学识别模型进行训练后,对所述声学识别模型的所述输出层进行调整,具体包括:步骤S231,分别计算得到每种语言的先验概率,以及计算得到所有种类的语言公用的静音的先验概率;步骤S232,分别计算得到每种语言的后验概率,以及计算得到所述静音的后验概率;步骤S233,根据每种语言的先验概率和后验概率,以及所述静音的先验概率和后验概率,调整所述声学识别模型的所述输出层。7.如权利要求6所述的多语言混合语音识别方法,其特征在于,所述步骤S231中,依照下述公式分别计算得到每种语言的先验概率:其中,用于表示所述多语言语音数据中第j种语言的第i个状态的所述输出标签;用于表示所述多语言语音数据中所述输出标签为的先验概率;用于表示所述多语言语音数据中所述输出标签为的总数;用于表示所述多语言语音数据中的所述静音的第i种状态的所述输出标签;用于表示所述多语言语音数据中所述输出标签为的总数;Mj用于表示所述多语言语音数据中的第j种语言中的状态的总数;Msil用于表示所述多语言语音数据中的所述静音的状态的总数。8.如权利要求6所述的多语言混合语音识别方法,其特征在于,所述步骤S231中,依照下述公式计算得到所述静音的先验概...

【专利技术属性】
技术研发人员:范利春孟猛高鹏
申请(专利权)人:芋头科技杭州有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1