【技术实现步骤摘要】
语音的多语种识别方法、装置、终端和存储介质
[0001]本申请涉及计算机
,特别是涉及一种语音的多语种识别方法、相应的一种语音的多语种识别装置、相应的一种车载终端和计算机可读存储介质。
技术介绍
[0002]随着人工智能相关技术的日益成熟,越来越多的智能设备进入用户的生活中,人与机器的交互日渐平常。语音输入作为人机交互中自然又便捷的交互方式,实现解放双手的目的,目前的智能设备大多具有语音识别功能,语音识别功能提高用户的便捷性。目前,待识别的语音数据可能并不只是单一语种的语音,还可能为双语种的混合语音或多语种的混合语音,针对多种混合多语种识别模型的构建,主要可以是通过分别对各组混合双语种,例如英德、英法等的声学模型进行建模,基于多组声学模型输出得分的语种识别方式实现,这种语种识别方式所要求的计算量巨大,所进行的语种识别效率低。
技术实现思路
[0003]鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音的多语种识别方法、相应的一种语音的多语种识别装置、相应的一种车载终端 ...
【技术保护点】
【技术特征摘要】
1.一种语音的多语种识别方法,其特征在于,所述方法包括:获取待识别的语音数据和多语种声学模型;所述多语种声学模型基于多个混合双语模型的共享隐含层融合得到;根据所述待识别的语音数据和所述多语种声学模型,得到针对各语种的置信度;基于所述针对各语种的置信度确定所述待识别的语音数据对应的语种。2.根据权利要求1所述的方法,其特征在于,还包括:解码所述待识别的语音数据,对解码后的语音数据进行实时显示。3.根据权利要求2所述的方法,其特征在于,所述多个混合双语模型的隐含层包括按照预设比例区分为底层隐含层和高层隐含层,所述底层隐含层用于合并生成共享隐含层;所述根据所述待识别的语音数据和所述多语种声学模型,得到针对各语种的置信度,包括:将待识别的语音数据输入多个混合双语模型的共享隐含层,得到第一输出结果;将所述第一输出结果分别输入所述多个混合双语模型的高层隐含层,得到多个第二输出结果;将所述多个第二输出结果合并作为预设语种分类模型的输入项,得到针对各语种的多个置信度。4.根据权利要求3所述的方法,其特征在于,所述将所述多个第二输出结果合并作为预设语种分类模型的输入项,得到针对各语种的多个置信度,包括:将用于表征第二输出结果的多维特征向量按照相应维度拼接,并将拼接后的特征向量作为所述预设语种分类模型的输入项,得到针对不同语种的多个置信度。5.根据权利要求1至4任一项所述的方法,其特征在于,所述基于所述针对各语种的置信度确定所述待识别的语音数据对应的语种,包括:若有且仅有一个所述置信度大于预设值,则确定该置信度对应的语种为所述待识别的语音数据对应的语种;或,若存在两个或两个以上置信度大于预设值,则确定所述置信度值最大的对应的语种为待识别的语音数据对应的语种;或,若所述多个置信度均未达到预设值,则将所述置信度值最大的对应的语种为所述待识别的语音数据的语种。6.根据权利要求3所述的方法,其特征在于,所述对解码后的语音数据进行实时显示,包括:在确定所述待识别的语音数据对应的语种之前,解码所述待识别的语音数据并对解码后的语音数据进行预设语种的显示;在确定所述待识别的语音数据对应的语种之后,采用与所确定语种对应的混合双语模型对所述待识别的语音数据进行解码,并继续对解码后的语音数据进行所确定语种的替换显示。7.根据权利要求6所述的方法,其特征在于,所述多语种声学模型包括预设语种模型,所述在确定所述待识别的语音数据对应的语种之前,解析所述待识别的语音数据并对解析后的语音数据进行预设语种的显示,包括:将所述第一输出...
【专利技术属性】
技术研发人员:张辽,
申请(专利权)人:广州小鹏汽车科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。