混合语音的识别方法及装置、存储介质、电子装置制造方法及图纸

技术编号:29407465 阅读:12 留言:0更新日期:2021-07-23 22:47
本发明专利技术提供了一种混合语音的识别方法及装置、存储介质、电子装置,其中,该方法包括:获取待音素识别的混合语音,其中,所述混合语音包括中文单词和英文单词;从所述混合语音中提取英文非缩写单词;采用第一预设字素序列到音素序列G2P模型识别所述英文非缩写单词的第一音素信息,其中,所述第一预设G2P模型通过中文音素的解码结果训练得到,包括英文单词与中文音素之间的映射序列。通过本发明专利技术,在节省人工成本同时追求声学上高度相似的映射标注,实现了一种质量可靠的英文发音方案。解决了相关技术中音素识别混合语音的效率低的技术问题。

【技术实现步骤摘要】
混合语音的识别方法及装置、存储介质、电子装置
本专利技术涉及语音识别领域,具体而言,涉及一种混合语音的识别方法及装置、存储介质、电子装置。
技术介绍
相关技术中,中英文混合语音识别是指对说话人说话过程中同时包含中文和英文语言的自动语音识别(ASR,AutomaticSpeechRecognition),在英语越来月普及的今天,对大多数中国人群而言,中英文混合沟通逐渐成为一种普遍的现象。在中国人群的中英文对话中,中文部分仍然是主体语言,根据中英文的切换类型可分为“句中切换”即英文词穿插在中文语句中,另一种是“句间切换”即中英文整体语句存在切换。相比较传统的单语言自动语音识别技术,混合语言的语音识别识别技术特别是具有“句中切换”的混合语音识别的挑战在于缺乏充足的语音/文本数据训练面向该场景的声学/语音模型。此外,针对“句中切换”类型,在拥有相对充足训练数据的中文声学模型的前提下,希望拓展其对英文的识别能力,其中关键技术是获取高质量英文词发音即由可靠的中文音素序列表征该英文词的发音,从而构建中英文混合发音词典。同时在n-gram语言模型中保留英文内容,因此在一定程度上实现中英文混合语音识别。过去数十年,人们致力于研究面向语音识别的通过声学数据驱动的发音词典学习,即为拥有音频而无标注的单词自动标音。在实际应用中,一般拥有一套音素单元集合和一定的基于专家知识的发音词典,但是对于诸多集外词(OOV,out-of-vocabulary)的发音并未能涵盖。通常最直接的方法是使用基于专家知识的种子词典训练一个G2P(GraphemetoPhoneme)模型,然后通过该模型给出OOV的发音。但是对于一些专有词的发音,G2P可能不会给出合适的标注,对此音素解码通过声学上解码给出单词的贴近真实场景的发音,往往音素解码方法会和G2P工具配合使用给出单词的多个候选发音。相关技术中,针对中英文混合语音识别任务,当前主流的ASR框架是训练混合声学模型和混合语言模型。其中对于中英文混合声学模型,需要大量的中英文混合的语音和标注数据作为训练材料,但是相比较中文(单语言)的训练数据,中英文混合数据是十分稀少的,并且重新训练一个中英文混合识别的专用声学模型成本也比较高,此外对于中英文声学模型的建模单元即中文和英文的音素集合合并处理也是一个难点问题,如果使用常规的英文声学模型(英文单词与英文音素之间的映射)进行识别,又需要切换模型,影响识别时间。此外还存在中文为母语的说话人其发音的英文,和以英文为母语的说话人的英文还有差异的问题。针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。
技术实现思路
本专利技术实施例提供了一种混合语音的识别方法及装置、存储介质、电子装置。根据本专利技术的一个实施例,提供了一种混合语音的识别方法,包括:获取待音素识别的混合语音,其中,所述混合语音包括中文单词和英文单词;从所述混合语音中提取英文非缩写单词;采用第一预设字素序列到音素序列G2P模型识别所述英文非缩写单词的第一音素信息,其中,所述第一预设G2P模型通过中文音素的解码结果训练得到,包括英文单词与中文音素之间的映射序列。可选的,在采用第一预设G2P模型识别所述英文单词的第一音素信息之前,所述方法还包括:通过音素解码和择优算法生成指定词集的种子词典,其中,所述指定词集为中英文样本语料中的英文词;采用所述种子词典训练生成所述第一预设G2P模型,其中,所述第一预设G2P模型为基于Seq2Seq网络的G2P模型。可选的,通过音素解码和择优算法生成指定词集的种子词典包括:针对所述指定词集中的每个英文词,从所述中英文样本语料的混合音频中获取英文词的指定音段;采用中文音素级解码网络将所述指定音段解码为中文音素序列,其中,所述中文音素级解码网络包括中文声学模型和音素级语言模型;根据所述中文音素序列生成与所述指定词集对应的种子词典。可选的,所述中文音素序列包括多个候选发音,根据所述中文音素序列生成与所述指定词集对应的种子词典包括:针对指定词集中的每个英文词,将所述多个候选发音分别嵌入对应的混合音频,并计算平均发音的后验概率;根据所述后验概率对所述多个候选发音进行排序,得到若干个最优的发音结果,并整合生成与所述指定词集对应的种子词典。可选的,从所述中英文样本语料的混合音频中获取英文词的指定音段包括:采用所述中英文样本语料、中文发音词典、英文发音词典训练混合高斯混合模型-隐马尔科夫模型GMM-HMM模型;采用训练后的所述混合GMM-HMM模型通过对齐得到所述英文词的片段时间戳;基于所述片段时间戳在所述混合音频中提取所述英文词的指定音段。可选的,采用所述种子词典训练生成所述第一预设G2P模型包括:采用所述种子词典训练初始G2P模型,得到第一G2P模型;采用所述第一G2P模型对所述指定词集重新解码,对每个英文词生成n+i个预测结果,其中,所述种子词典中的每个英文词的映射序列包括n个候选发音,n为大于1的整数,i为大于0的整数;在所述n个候选发音和所述n+i个预测结果中择优重新选择n个候选发音作为训练数据,并继续迭代训练所述第一G2P模型,直到预测结果与测试集的混错率满足预设条件,将最新的G2P模型确定为所述第一预设G2P模型。可选的,在获取待音素识别的混合语音之后,所述方法还包括:从所述混合语音中提取中文单词和英文缩写单词;采用第二预设G2P模型识别所述中文单词,得到所述中文单词的第二音素信息,采用字母发音表拼读所述英文缩写单词,得到所述英文缩写单词的第三音素信息,其中,所述第二预设G2P模型包括中文单词与中文音素之间的映射序列;组合所述第一音素信息,所述第二音素信息,以及所述第三音素信息,得到所述混合语音的混合音素。根据本专利技术的另一个实施例,提供了一种混合语音的识别装置,包括:获取模块,用于获取待音素识别的混合语音,其中,所述混合语音包括中文单词和英文单词;提取模块,用于从所述混合语音中提取英文非缩写单词;识别模块,用于采用第一预设字素序列到音素序列G2P模型识别所述英文非缩写单词的第一音素信息,其中,所述第一预设G2P模型通过中文音素的解码结果训练得到,包括英文单词与中文音素之间的映射序列。可选的,所述装置还包括:第一生成模块,用于在所述识别模块采用第一预设G2P模型识别所述英文单词的第一音素信息之前,通过音素解码和择优算法生成指定词集的种子词典,其中,所述指定词集为中英文样本语料中的英文词;第二生成模块,用于采用所述种子词典训练生成所述第一预设G2P模型,其中,所述第一预设G2P模型为基于Seq2Seq网络的G2P模型。可选的,所述第一生成模块包括:获取单元,用于针对所述指定词集中的每个英文词,从所述中英文样本语料的混合音频中获取英文词的指定音段;解码单元,用于采用中文音素级解码网络将所述指定音段解码为中文音素序列,其中,所述中文音素级解码网络包括中文声学模型和音素级语言模型;生成单元,用于根据所述中文音素序列生成与所述指定词集对应的种子词典。可选的,所述中文音素序列包括多个候选发音,所述生成单元包括:计算子本文档来自技高网
...

【技术保护点】
1.一种混合语音的识别方法,其特征在于,包括:/n获取待音素识别的混合语音,其中,所述混合语音包括中文单词和英文单词;/n从所述混合语音中提取英文非缩写单词;/n采用第一预设字素序列到音素序列G2P模型识别所述英文非缩写单词的第一音素信息,其中,所述第一预设G2P模型通过中文音素的解码结果训练得到,包括英文单词与中文音素之间的映射序列。/n

【技术特征摘要】
1.一种混合语音的识别方法,其特征在于,包括:
获取待音素识别的混合语音,其中,所述混合语音包括中文单词和英文单词;
从所述混合语音中提取英文非缩写单词;
采用第一预设字素序列到音素序列G2P模型识别所述英文非缩写单词的第一音素信息,其中,所述第一预设G2P模型通过中文音素的解码结果训练得到,包括英文单词与中文音素之间的映射序列。


2.根据权利要求1所述的方法,其特征在于,在采用第一预设G2P模型识别所述英文单词的第一音素信息之前,所述方法还包括:
通过音素解码和择优算法生成指定词集的种子词典,其中,所述指定词集为中英文样本语料中的英文词;
采用所述种子词典训练生成所述第一预设G2P模型,其中,所述第一预设G2P模型为基于Seq2Seq网络的G2P模型。


3.根据权利要求2所述的方法,其特征在于,通过音素解码和择优算法生成指定词集的种子词典包括:
针对所述指定词集中的每个英文词,从所述中英文样本语料的混合音频中获取英文词的指定音段;
采用中文音素级解码网络将所述指定音段解码为中文音素序列,其中,所述中文音素级解码网络包括中文声学模型和音素级语言模型;
根据所述中文音素序列生成与所述指定词集对应的种子词典。


4.根据权利要求3所述的方法,其特征在于,所述中文音素序列包括多个候选发音,根据所述中文音素序列生成与所述指定词集对应的种子词典包括:
针对指定词集中的每个英文词,将所述多个候选发音分别嵌入对应的混合音频,并计算平均发音的后验概率;
根据所述后验概率对所述多个候选发音进行排序,得到若干个最优的发音结果,并整合生成与所述指定词集对应的种子词典。


5.根据权利要求3所述的方法,其特征在于,从所述中英文样本语料的混合音频中获取英文词的指定音段包括:
采用所述中英文样本语料、中文发音词典、英文发音词典训练混合高斯混合模型-隐马尔科夫模型GMM-HMM模型;
采用训练后的所述混合GMM-HMM模型通过对齐得到所述英文词的片段时间戳;
基于所述片段时间戳在所述混合音频...

【专利技术属性】
技术研发人员:黄石磊王昕程刚
申请(专利权)人:深圳市北科瑞讯信息技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1