语音识别方法、电子设备及存储介质技术

技术编号:37163568 阅读:18 留言:0更新日期:2023-04-20 22:36
本申请实施例提供一种语音识别方法、电子设备及存储介质,涉及信息技术领域,该方法包括:获取待识别语音;使用预设第一模型对所述待识别语音进行计算,得到通用结果;将所述通用结果输入预设第二模型进行计算,得到垂类结果;基于所述垂类结果及所述通用结果,得到语音识别结果。本申请实施例提供的方法,能够提高语音识别的准确度。高语音识别的准确度。高语音识别的准确度。

【技术实现步骤摘要】
语音识别方法、电子设备及存储介质


[0001]本申请实施例涉及人工智能领域,尤其涉及一种语音识别方法、电子设备及存储介质。

技术介绍

[0002]语音识别,也称为自动语音识别(Automatic Speech Recognition,ASR),是一种通过计算机将语音转换为相应文字的技术。语音识别技术广泛应用于车载导航、智能家居、社交聊天、应用助手、娱乐游戏等场景中。
[0003]由于训练语料的限制,语音识别通常对于通用的说法识别较好,而对于特定垂类,例如导航地点、歌曲名的识别错误率较高。目前,语音识别中垂类的识别大都是基于加权有限状态转换器(Weighted Finite State Transducer,WFST)来完成。WFST是基于半环代数理论,内部是一个由多条状态转移弧构成的有向图,状态转移弧上包括输入字符、输出字符和对应的权重。WFST应用于ASR垂类识别,通常是将待识别的字符提前注音,状态转移弧上的输入字符即为字符对应的注音。WFST图构建好之后,在识别时输入声学模型的结果,通过在WFST图中进行路径搜索,得到概率最高的路径本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:获取待识别语音;使用预设第一模型对所述待识别语音进行计算,得到通用结果;将所述通用结果输入预设第二模型进行计算,得到垂类结果;基于所述垂类结果及所述通用结果,得到语音识别结果。2.根据权利要求1所述的方法,其特征在于,所述通用结果的类型为汉字,所述将所述通用结果输入预设第二模型进行计算,得到垂类结果包括:将所述汉字类型的通用结果转换为拼音类型的通用结果,并将所述拼音类型的通用结果输入预设第二模型进行计算,得到垂类结果。3.根据权利要求1或2所述的方法,其特征在于,所述预设第二模型为加权有限状态转换器WFST模型。4.根据权利要求3所述的方法,其特征在于,所述WFST模型包括词典WFST及语言WFST,其中,所述词典WFST由预设发音词典对分词进行注音后获得。5.根据权利要求4所述的方法,其特征在于,所述发音词典包括基于声韵母的发音词典、基于拼音的词典及基于汉字的词典中的一种。6.根据权利要求4所述的方法,其特征在于,所述发音词典包括生僻字词典及过滤汉字集合,其中,所述过滤汉字集合包括混淆汉字及模糊音汉字,所述混淆汉字及模糊音汉字具有对应的权重,所述生僻字词典由文本语料经过字频统计后获得。7.根据权利要求1

6中任一项所述的方法,其特征在于,所述基于所述垂类结果及所述通用结果,得到语音识别结果包括:基于所述垂类结果及所述通用结果计算所述垂类结果及所述通用结果的聚类结果及置信度;基于所述垂类结果及所述通用结果的聚类结果及置信度确定语音识别结果。8.根据权利要求7所述的方法,其特征在于,所述基于所述垂类结果及所述通用结果计算所述垂类结果及所述通用结果的聚类结果包括:获取通用聚类中心及垂类聚类中心;所述通用聚类中心包括通用正确识别聚类中心及通用错误识别聚类中心,所述垂类聚类中心包括垂类正确识别聚类中心及垂类错误识别聚类中心;若所述通用结果距离所述通用正确识别聚类中心比所述通用错误识别聚类中心较近,则所述通用结果的聚类结果为正类,若所述通用结果距离所述通用错误识别聚类中心比所述通用正确识别聚类中心较近,则所述通用结果的聚类结果为负类;若所述垂类结果距离所述垂类正确识别聚类中心比所述垂类错误识别聚类中心较近,则所述垂类结果的聚类结果为正类,若所述垂类结果距离所述垂类错误识别聚类中心比所述垂类正确识别聚类中心较近,则所述垂类结果的聚类结果为负类。9.根据权利要求8所述的方法,其特征在于,所述基于所述垂类结果及所述通用结果计算所述垂类结果及所述通用结果的置信度包括:若所述通用结果的聚类结果为正类,则所述通用结果的置信度可以通过如下公式计算:Conf_g=100%

【专利技术属性】
技术研发人员:尹旭贤
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1