语音识别方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:33509613 阅读:18 留言:0更新日期:2022-05-19 01:18
本公开实施例公开了一种语音识别方法、装置、电子设备及计算机可读存储介质,所述方法包括:对于待识别语音数据进行基于后验概率的第一语音识别,得到一个或多个第一语音识别结果及其对应的第一语音识别评价分值;对于所述待识别语音数据进行基于类别的第二语音识别,得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值;基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序,得到目标语音识别结果。该技术方案能够在一定程度上保障新词增加的全面性的条件下,大大降低语音识别的训练工作量以及所需要的时间成本,从而有利于提高语音识别的准确性和效率。效率。效率。

【技术实现步骤摘要】
语音识别方法、装置、电子设备及计算机可读存储介质


[0001]本公开实施例涉及语音识别
,具体涉及一种语音识别方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着科学技术的发展,众多智能产品不断面世,为了提升用户的使用体验,增强其智能化程度,很多智能产品都支持与用户的语音互动,这就要求这些智能产品需要具有较高的语音识别能力。但在实际应用场景中,需要进行识别的语音内容涉及众多领域,比如音乐、影视、游戏、地名、食物、生活用语、动作、物品等等,相关的实体词数量更是千万数量级别。如果实体词发生新增、修改等情况,比如,演唱者新发布一首歌,表演者新推出一部电影或者电视剧,开发者新开发一个游戏,智能快递柜新增一个功能等等,在现有技术中,智能产品语音识别所依据的训练语料词库就需要进行发音标注、更新或扩充,而所述智能产品语音识别所依据的语音识别模型就需要重新进行训练,但由于所述语言识别模型词库的容量有限,所以新词的增加需要进行一定的筛选,这就使得新词的增加存在一定的缺失,同时由于词库的变动,所有的语料都需要重新进行分词和训练,因此会大大增加数据训练工作量以及所需时间成本,不利于提高语音识别的准确性和效率。

技术实现思路

[0003]本公开实施例提供一种语音识别方法、装置、电子设备及计算机可读存储介质。
[0004]第一方面,本公开实施例中提供了一种语音识别方法。
[0005]具体的,所述语音识别方法,包括:
[0006]对于待识别语音数据进行基于后验概率的第一语音识别,得到一个或多个第一语音识别结果及其对应的第一语音识别评价分值;
[0007]对于所述待识别语音数据进行基于类别的第二语音识别,得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值;
[0008]基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序,得到目标语音识别结果。
[0009]结合第一方面,本公开实施例在第一方面的第一种实现方式中,所述对于待识别语音数据进行基于后验概率的第一语音识别,得到一个或多个第一语音识别结果及其对应的第一语音识别评价分值,包括:
[0010]提取所述待识别语音数据的声学特征;
[0011]将所述声学特征输入至预先训练得到的后验概率预测模型中,得到后验概率矩阵,其中,所述后验概率矩阵中的矩阵元素为所述声学特征对应的后验概率;
[0012]基于所述后验概率矩阵进行波束搜索,得到一个或多个第一语音识别结果及其对应的第一语音识别评价分值,其中,所述第一语音识别评价分值基于所述后验概率计算得到。
[0013]结合第一方面和第一方面的第一种实现方式,本公开实施例在第一方面的第二种实现方式中,所述对于所述待识别语音数据进行基于类别的第二语音识别,得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值,包括:
[0014]将所述待识别语音数据输入至预先训练得到的类别语音识别模型中,基于波束搜索得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值,其中,所述第二语音识别评价分值基于类别概率以及所述后验概率计算得到。
[0015]结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述对于所述待识别语音数据进行基于类别的第二语音识别,得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值,包括:
[0016]将所述待识别语音数据输入至预先训练得到的主类别语音识别网络中,在基于所述主类别语音识别网络进行语音识别的过程中,当检测到待识别语音单元为预设类别内容时,调用预先训练得到的辅类别语音识别网络进行语音识别,当基于所述辅类别语音识别网络完成识别或者识别失败时,跳回所述主类别语音识别网络中继续进行语音识别,直至得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值,其中,所述第二语音识别评价分值基于类别概率以及所述后验概率计算得到。
[0017]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,所述类别语音识别模型在训练时,以语音训练数据和相关词语对应的类别标签作为输入,以所述语音训练数据对应的语音识别结果和及其对应的混合后验概率作为输出对于所述类别语音识别模型进行训练,其中,所述词语对应的类别标签通过查询预先生成的类别词典得到。
[0018]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,所述类别标签还附设有词频权重,以对于所述类别概率进行加权。
[0019]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,所述基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序,得到目标语音识别结果,包括:
[0020]基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序;
[0021]将语音识别评价分值最高的语音识别结果作为目标语音识别结果。
[0022]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,所述第一语音识别和第二语音识别并行交叉执行。
[0023]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式和第一方面的第七种实现方式,本公开在第一方面的第八种实现方式中,所述基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别
结果和第二语音识别结果进行混合排序,包括:
[0024]在所述第一语音识别和第二语音识别并行执行时,当经所述第二语音识别得到的第二语音识别结果的语义完整度满足预设完整度条件时,基于所述第一语音识别评价分值和第二语音识别评价分值对于当前第一语音识别结果和当前第二语音识别结果进行混合排序,得到语音识别评价分值最高的预设数量的第一中间语音识别结果;
[0025]所述第一语音识别和第二语音识别继续并行执行,当经所述第二语音识别得到的第二语音识别结果的语义完整度满足预设完整度条件时,基于所述第一语音识别评价分值和第二语音识别评价分值对于当前第一语音识别结果和当前第二语音识别结果进行混合排序,得到语音识别评价分值最高的预设数量的第二中间语音识别结果,使用所述第二中间语音识别结果更新所述第一中间语音识别结果;
[0026]重复执行中间语本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,包括:对于待识别语音数据进行基于后验概率的第一语音识别,得到一个或多个第一语音识别结果及其对应的第一语音识别评价分值;对于所述待识别语音数据进行基于类别的第二语音识别,得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值;基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序,得到目标语音识别结果。2.根据权利要求1所述的方法,所述对于待识别语音数据进行基于后验概率的第一语音识别,得到一个或多个第一语音识别结果及其对应的第一语音识别评价分值,包括:提取所述待识别语音数据的声学特征;将所述声学特征输入至预先训练得到的后验概率预测模型中,得到后验概率矩阵,其中,所述后验概率矩阵中的矩阵元素为所述声学特征对应的后验概率;基于所述后验概率矩阵进行波束搜索,得到一个或多个第一语音识别结果及其对应的第一语音识别评价分值,其中,所述第一语音识别评价分值基于所述后验概率计算得到。3.根据权利要求1或2所述的方法,所述对于所述待识别语音数据进行基于类别的第二语音识别,得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值,包括:将所述待识别语音数据输入至预先训练得到的类别语音识别模型中,基于波束搜索得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值,其中,所述第二语音识别评价分值基于类别概率以及所述后验概率计算得到。4.根据权利要求1或2所述的方法,所述对于所述待识别语音数据进行基于类别的第二语音识别,得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值,包括:将所述待识别语音数据输入至预先训练得到的主类别语音识别网络中,在基于所述主类别语音识别网络进行语音识别的过程中,当检测到待识别语音单元为预设类别内容时,调用预先训练得到的辅类别语音识别网络进行语音识别,当基于所述辅类别语音识别网络完成识别或者识别失败时,跳回所述主类别语音识别网络中继续进行语音识别,直至得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值,其中,所述第二语音识别评价分值基于类别概率以及所述后验概率计算得到。5.根据权利要求3或4所述的方法,所述类别语音识别模型在训练时,以语音训练数据和相关词语对应的类别标签作为输入,以所述语音训练数据对应的语音识别结果和及其对应的混合后验概率作为输出对于所述类别语音识别模型进行训练,其中,所述词语对应的类别标签通过查询预先生成的类别词典得到。6.根据权利要求5所述的方法,所述类别标签还附设有词频权重,以对于所述类别概率进行加权。7.根据权利要求1

6任一所述的方法,所述基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序,得到目标语音识别结果,包括:基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序;将语音识别评价分值最高的语音识别结果作为目标语音识别结果。
8.根据权利要求7所述的方法,所述第一语音识别和第二语音识别并行交叉执行。9.根据权利要求8所述的方法,所述基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序,包括:在所述第一语音识别和第二语音识别并行执行时,当经所述第二语音识别得到的第二语音识别结果的语义完整度满足预设完整度条件时,基于所述第一语音识别评价分值和第二语音识别评价分值对于当前第一语音识别结果和当前第二语音识别结果进行混合排序,得到语音识别评价分值最高的预设数量的第一中间语音识别结果;所述第一语音识别和第二语音识别继续并行执行,当经所述第二语音识别得到的第二语音识别结果的语义完整度满足预设完整度条件时,基于所述第一语音识别评价分值和第二语音识别评价分值对于当前第一语音识别结果和当前第二语音识别结果进行混合排序,得到语音识别评价分值最高的预设数量的第二中间语音识别结果,使用所述第二中间语音识别结果更新所述第一中间语音识别结果;重复执行中间语音识别结果生成和更新步骤,直至所述第一语音识别和第二语音识别执行完成。10.一种语音识别装置,包括:第一识别...

【专利技术属性】
技术研发人员:汪洋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1