多语言混杂模型建立、数据获取方法及装置、电子设备制造方法及图纸

技术编号:19264913 阅读:37 留言:0更新日期:2018-10-27 03:10
本发明专利技术实施例提供了一种多语言混杂模型建立、数据获取方法及装置、电子设备,方法包括:根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型,其中,建模单元为上下文无关的语音单元;获取多语言混杂的语音训练数据,将多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将混杂语音信号对应的混杂标注文本转化成基于声学模型的建模单元的混杂标签序列;使用特征向量序列和混杂标签序列,训练声学模型;获取多语言混杂的语料数据,训练语言模型;根据声学模型和语言模型,建立多语音混杂的语音识别系统。应用本发明专利技术实施例,提高了对混杂多种语言的语音数据的识别正确率。

【技术实现步骤摘要】
多语言混杂模型建立、数据获取方法及装置、电子设备
本专利技术涉及语音识别
,特别是涉及一种多语言混杂模型建立、数据获取方法及装置、电子设备。
技术介绍
语音数据分为多种语言的语音数据,语音识别技术是指将一段不同种类的语音数据转换成文本的过程。目前,为了能够实现对多种语言的语音识别,通常先采用每一种语言的数据对每一种语言的语音识别系统单独进行训练,获得针对每一种语言的语音识别系统,这里,语音识别系统包括声学模型和语言模型;将针对不同语言的语音识别系统并联,获得混合语音识别器。基于该混合语音识别器,当获得语音数据时,将语音数据输入并联的每一个语音识别系统中进行识别,选择似然概率最大的一个识别结果作为最终的语音识别结果。基于上述情况可知,现有技术中,对多种语言独立成句的语音数据,能够获得较好的识别结果,但对于一句话中多种语言混杂的,例如一句话中混杂有中文和英文,将无能获得一个较好的识别结果。
技术实现思路
本专利技术实施例的目的在于提供一种多语言混杂模型建立、数据获取方法及装置、电子设备,以提高对混杂多种语言的语音数据的识别正确率。具体技术方案如下:一方面,本专利技术实施例公开了一种多语本文档来自技高网...

【技术保护点】
1.一种多语言混杂语音识别系统建立方法,其特征在于,所述方法包括:根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,所述建模单元为上下文无关的语音单元;获取多语言混杂的语音训练数据,将所述多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将所述混杂语音信号对应的混杂标注文本转化成基于所述声学模型的建模单元的混杂标签序列;使用所述特征向量序列和所述混杂标签序列,训练所述声学模型;获取多语言混杂的语料数据,训练语言模型;根据所述声学模型和所述语言模型,建立多语音混杂的语音识别系统。

【技术特征摘要】
1.一种多语言混杂语音识别系统建立方法,其特征在于,所述方法包括:根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,所述建模单元为上下文无关的语音单元;获取多语言混杂的语音训练数据,将所述多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将所述混杂语音信号对应的混杂标注文本转化成基于所述声学模型的建模单元的混杂标签序列;使用所述特征向量序列和所述混杂标签序列,训练所述声学模型;获取多语言混杂的语料数据,训练语言模型;根据所述声学模型和所述语言模型,建立多语音混杂的语音识别系统。2.根据权利要求1所述的方法,其特征在于,所述获取多语言混杂的语音训练数据的步骤,包括:获取各语言的语音训练数据;对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂。3.根据权利要求2所述的方法,其特征在于,所述将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂的步骤,包括:将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。4.根据权利要求1或2所述的方法,其特征在于,所述语音单元包括:音节和/或单词。5.根据权利要求1或2所述的方法,其特征在于,所述根据多语言所包含的语音单元确定声学模型的建模单元的步骤,包括:将多语言所包含的语音单元的合集作为声学模型的建模单元;或者合并所述多语言中发音相近的语音单元,将合并后获得的语音单元以及所述多语言中未合并的语音单元的合集作为声学模型的建模单元。6.根据权利要求1或2所述的方法,其特征在于,所述使用所述特征向量序列和所述混杂标签序列,训练所述声学模型的步骤,包括:根据连接时序分类准则对所述混杂标签序列进行变换;使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型。7.根据权利要求6所述的方法,其特征在于,在所述使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型的步骤之前,所述方法还包括:使用特征向量与建模单元标签强制对齐的多语言混杂的语音训练数据,对所述声学模型进行交叉熵训练。8.根据权利要求6所述的方法,其特征在于,在所述使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型到的步骤之后,所述方法还包括:使用所述特征向量序列和所述混杂标注文本,对所述声学模型进行区分度训练。9.根据权利要求1或2所述的方法,其特征在于,所述获取多语言混杂的语料数据的步骤,包括:识别第一语言的语料数据中的短语;基于所述第一语言和其他语言之间的平行语料库,将所述第一语言的语料数据中的短语替换为从所述平行语料库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据。10.根据权利要求9所述的方法,其特征在于,所述方法还包括:基于所述第一语言和所述其他语言之间的平行语料库,获取所述第一语言和所述其他语言匹配的短语;将所述第一语言的短语和匹配的所述其他语言的短语对应存储至短语对齐库;所述基于所述第一语言和其他语言之间的平行语料库,将所述第一语言的语料数据中的短语替换为从所述平行语料库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据的步骤,包括:基于所述第一语言和其他语言之间的短语对齐库,将所述第一语言的语料数据中的短语替换为从所述短语对齐库中匹配到的所述其他语言的短语,获得多语言混杂的语料数据。11.一种多语言混杂语音识别声学模型建立方法,其特征在于,所述方法包括:根据多语言所包含的语音单元确定声学模型的建模单元,基于深度神经网络,构建声学模型;其中,所述建模单元为上下文无关的语音单元;获取多语言混杂的语音训练数据,将所述多语言混杂的语音训练数据中的混杂语音信号转化成特征向量序列,将所述混杂语音信号对应的混杂标注文本转化成基于所述声学模型的建模单元的混杂标签序列;使用所述特征向量序列和所述混杂标签序列,训练所述声学模型。12.根据权利要求11所述的方法,其特征在于,所述获取多语言混杂的语音训练数据的步骤,包括:获取各语言的语音训练数据;对各语言的语音训练数据中第一语言的语音信号与其他语言的语音信号进行单词级别的对齐;将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂,获得多语言混杂的语音训练数据;其中,所述交换混杂包括:语音信号的混杂和对应的标注文本的混杂。13.根据权利要求12所述的方法,其特征在于,所述将所述第一语言的语音训练数据和所述其他语言的语音训练数据进行单词级别的交换混杂的步骤,包括:将所述第一语言的语音训练数据中单词的语音信号替换成对齐的所述其他语言的语音训练数据中单词的语音信号;将所述第一语言的语音训练数据中单词的语音信号对应的标注文本替换成对齐的所述其他语言的语音训练数据中单词的语音信号对应的标注文本。14.根据权利要求11或12所述的方法,其特征在于,所述语音单元包括:音节和/或单词。15.根据权利要求11或12所述的方法,其特征在于,所述根据多语言所包含的语音单元确定声学模型的建模单元的步骤,包括:将多语言所包含的语音单元的合集作为声学模型的建模单元;或者合并所述多语言中发音相近的语音单元,将合并后获得的语音单元以及所述多语言中未合并的语音单元的合集作为声学模型的建模单元。16.根据权利要求11或12所述的方法,其特征在于,所述使用所述特征向量序列和所述混杂标签序列,训练所述声学模型的步骤,包括:根据连接时序分类准则对所述混杂标签序列进行变换;使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型。17.根据权利要求16所述的方法,其特征在于,在所述使用所述特征向量序列和变换后的所述混杂标签序列,训练所述声学模型到的步骤之前,所述方法还包括:使用特征向量与建模单元标签强制对齐的多语言混杂的...

【专利技术属性】
技术研发人员:白锦峰贾磊
申请(专利权)人:北京猎户星空科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1