混合语音的识别方法及装置、存储介质、电子装置制造方法及图纸

技术编号：29407465 阅读：12 留言：0更新日期：2021-07-23 22:47

本发明专利技术提供了一种混合语音的识别方法及装置、存储介质、电子装置，其中，该方法包括：获取待音素识别的混合语音，其中，所述混合语音包括中文单词和英文单词；从所述混合语音中提取英文非缩写单词；采用第一预设字素序列到音素序列G2P模型识别所述英文非缩写单词的第一音素信息，其中，所述第一预设G2P模型通过中文音素的解码结果训练得到，包括英文单词与中文音素之间的映射序列。通过本发明专利技术，在节省人工成本同时追求声学上高度相似的映射标注，实现了一种质量可靠的英文发音方案。解决了相关技术中音素识别混合语音的效率低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
混合语音的识别方法及装置、存储介质、电子装置
本专利技术涉及语音识别领域，具体而言，涉及一种混合语音的识别方法及装置、存储介质、电子装置。
技术介绍
相关技术中，中英文混合语音识别是指对说话人说话过程中同时包含中文和英文语言的自动语音识别(ASR，AutomaticSpeechRecognition)，在英语越来月普及的今天，对大多数中国人群而言，中英文混合沟通逐渐成为一种普遍的现象。在中国人群的中英文对话中，中文部分仍然是主体语言，根据中英文的切换类型可分为“句中切换”即英文词穿插在中文语句中，另一种是“句间切换”即中英文整体语句存在切换。相比较传统的单语言自动语音识别技术，混合语言的语音识别识别技术特别是具有“句中切换”的混合语音识别的挑战在于缺乏充足的语音/文本数据训练面向该场景的声学/语音模型。此外，针对“句中切换”类型，在拥有相对充足训练数据的中文声学模型的前提下，希望拓展其对英文的识别能力，其中关键技术是获取高质量英文词发音即由可靠的中文音素序列表征该英文词的发音，从而构建中英文混合发音词典。同时在n-gram语言模型中保留英文内容，因此在一定程度上实现中英文混合语音识别。过去数十年，人们致力于研究面向语音识别的通过声学数据驱动的发音词典学习，即为拥有音频而无标注的单词自动标音。在实际应用中，一般拥有一套音素单元集合和一定的基于专家知识的发音词典，但是对于诸多集外词(OOV，out-of-vocabulary)的发音并未能涵盖。通常最直接的方法是使用基于专家知识的种子词典训练一个G2P(Graphemet...

【技术保护点】
1.一种混合语音的识别方法，其特征在于，包括：/n获取待音素识别的混合语音，其中，所述混合语音包括中文单词和英文单词；/n从所述混合语音中提取英文非缩写单词；/n采用第一预设字素序列到音素序列G2P模型识别所述英文非缩写单词的第一音素信息，其中，所述第一预设G2P模型通过中文音素的解码结果训练得到，包括英文单词与中文音素之间的映射序列。/n

【技术特征摘要】
1.一种混合语音的识别方法，其特征在于，包括：
获取待音素识别的混合语音，其中，所述混合语音包括中文单词和英文单词；
从所述混合语音中提取英文非缩写单词；
采用第一预设字素序列到音素序列G2P模型识别所述英文非缩写单词的第一音素信息，其中，所述第一预设G2P模型通过中文音素的解码结果训练得到，包括英文单词与中文音素之间的映射序列。

2.根据权利要求1所述的方法，其特征在于，在采用第一预设G2P模型识别所述英文单词的第一音素信息之前，所述方法还包括：
通过音素解码和择优算法生成指定词集的种子词典，其中，所述指定词集为中英文样本语料中的英文词；
采用所述种子词典训练生成所述第一预设G2P模型，其中，所述第一预设G2P模型为基于Seq2Seq网络的G2P模型。

3.根据权利要求2所述的方法，其特征在于，通过音素解码和择优算法生成指定词集的种子词典包括：
针对所述指定词集中的每个英文词，从所述中英文样本语料的混合音频中获取英文词的指定音段；
采用中文音素级解码网络将所述指定音段解码为中文音素序列，其中，所述中文音素级解码网络包括中文声学模型和音素级语言模型；
根据所述中文音素序列生成与所述指定词集对应的种子词典。

4.根据权利要求3所述的方法，其特征在于，所述中文音素序列包括多个候选发音，根据所述中文音素序列生成与所述指定词集对应的种子词典包括：
针对指定词集中的每个英文词，将所述多个候选发音分别嵌入对应的混合音频，并计算平均发音的后验概率；
根据所述后验概率对所述多个候选发音进行排序，得到若干个最优的发音结果，并整合生成与所述指定词集对应的种子词典。

5.根据权利要求3所述的方法，其特征在于，从所述中英文样本语料的混合音频中获取英文词的指定音段包括：
采用所述中英文样本语料、中文发音词典、英文发音词典训练混合高斯混合模型-隐马尔科夫模型GMM-HMM模型；
采用训练后的所述混合GMM-HMM模型通过对齐得到所述英文词的片段时间戳；
基于所述片段时间戳在所述混合音频...

【专利技术属性】
技术研发人员：黄石磊，王昕，程刚，
申请(专利权)人：深圳市北科瑞讯信息技术有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人