语音识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号:33118491 阅读:18 留言:0更新日期:2022-04-17 00:13
本公开提供一种语音识别方法、装置、电子设备和存储介质。该方法的一具体实施方式包括:对于候选词集合中的候选词,确定该候选词的语音识别的识别率;基于候选词集合中识别率小于第一预设识别率阈值的候选词生成难识别候选词集合;基于候选词集合中识别率大于第二预设识别率阈值的候选词生成易识别候选词集合,其中,第二预设识别率阈值大于第一预设识别率阈值。该实施方式为热词技术提供了难易识别词;分别确定难识别候选词集合中的候选词的热词权重和易识别候选词集合中的候选词的热词权重,并基于所确定的热词权重进行自动语音识别。识别。识别。

【技术实现步骤摘要】
语音识别方法、装置、电子设备和存储介质


[0001]本公开的实施例涉及语音识别
,具体涉及语音识别方法、装置、电子设备和存储介质。

技术介绍

[0002]随着语音识别技术的发展,产生了众多的语音识别引擎。这里,自动语音识别(Automatic Speech Recognition,ASR)引擎是指用于将语音数据识别为文本的应用程序。
[0003]由于现有技术的限制,语音识别引擎的识别率尚无法达到100%。为了适应不同场景的需要,大多ASR引擎支持热词输入,即希望通过将热词或者将热词和对应热词语音数据输入ASR引擎以提高对热词的识别概率。热词是对ASR识别结果进行干预的一种重要手段。

技术实现思路

[0004]本公开的实施例提出了语音识别方法、装置、电子设备和存储介质。
[0005]第一方面,本公开的实施例提供了一种语音识别方法,该方法包括:对于候选词集合中的候选词,确定该候选词的语音识别的识别率;基于上述候选词集合中识别率小于第一预设识别率阈值的候选词生成难识别候选词集合;基于上述候选词集合中识别率大于第二预设识别率阈值的候选词生成易识别候选词集合,其中,上述第二预设识别率阈值大于上述第一预设识别率阈值;分别确定上述难识别候选词集合中的候选词的热词权重和上述易识别候选词集合中的候选词的热词权重,并基于所确定的热词权重进行自动语音识别。
[0006]在一些可选的实施方式中,上述候选词集合通过如下方式得到:对参考文本分词序列进行关键词提取,生成候选词集合,其中,上述参考文本分词序列通过对目标语音数据对应的参考文本进行分词处理得到的,上述参考文本用于表征上述目标语音数据对应的实际语音文本内容。
[0007]在一些可选的实施方式中,上述对参考文本分词序列进行关键词提取,生成候选词集合,包括:基于上述参考文本分词序列中参考文本分词的词性、在上述参考文本分词序列中的词频以及是否属于预设停用词集合中的至少一项,生成上述候选词集合。
[0008]在一些可选的实施方式中,上述对于候选词集合中的候选词,确定该候选词的语音识别的识别率,包括:对上述目标语音数据对应的识别文本进行分词处理,得到识别文本分词序列;对于上述候选词集合中的候选词,根据该候选词在上述识别文本分词序列中的出现频次除以在上述参考文本分词序列中出现频次的比值,确定该候选词的语音识别的识别率。
[0009]在一些可选的实施方式中,上述分别确定上述难识别候选词集合中的候选词的热词权重和上述易识别候选词集合中的候选词的热词权重,并基于所确定的热词权重进行自动语音识别,包括:对于上述候选词集合中的候选词,根据该候选词的识别率确定该候选词在第一预设语音识别引擎中的热词权重,其中,该候选词的热词权重与该候选词的识别率负相关;以及将上述候选词集合中候选词作为热词,按照所确定的相应热词权重输入上述
第一预设语音识别引擎,以实现自动语音识别。
[0010]在一些可选的实施方式中,上述分别确定上述难识别候选词集合中的候选词的热词权重和上述易识别候选词集合中的候选词的热词权重,并基于所确定的热词权重进行自动语音识别,包括:对于上述难识别候选词集合中的候选词,确定该候选词作为热词输入第二预设语音识别引擎的热词权重;以及将上述难识别候选词集合中的候选词作为热词,按照所确定的相应热词权重输入上述第二预设语音识别引擎,以实现自动语音识别。
[0011]在一些可选的实施方式中,在上述将上述难识别候选词集合中的候选词作为热词,按照所确定的相应热词权重输入上述第二预设语音识别引擎,以实现自动语音识别之前,上述方法还包括:基于上述候选词集合中识别率大于等于上述第二预设识别率阈值小于等于上述第二预设识别率阈值的候选词生成可识别候选词集合;对于上述可识别候选词集合中的候选词,基于该候选词的识别率确定该候选词作为热词输入上述第二预设语音识别引擎的热词权重,其中,该候选词的热词权重与该候选词的识别率负相关;以及上述将上述难识别候选词集合中的候选词作为热词,按照所确定的相应热词权重输入上述第二预设语音识别引擎,以实现自动语音识别,包括:将上述难识别候选词集合和上述可识别候选词集合中的候选词作为热词,按照所确定的热词权重输入上述第二预设语音识别引擎,以实现自动语音识别。
[0012]第二方面,本公开的实施例提供了一种语音识别装置,该装置包括:识别率确定单元,被配置成对于候选词集合中的候选词,确定该候选词的语音识别的识别率;难识别词生成单元,被配置成基于上述候选词集合中识别率小于第一预设识别率阈值的候选词生成难识别候选词集合;易识别词生成单元,被配置成基于上述候选词集合中识别率大于第二预设识别率阈值的候选词生成易识别候选词集合,其中,上述第二预设识别率阈值大于上述第一预设识别率阈值;语音识别单元,被配置成分别确定上述难识别候选词集合中的候选词的热词权重和上述易识别候选词集合中的候选词的热词权重,并基于所确定的热词权重进行自动语音识别。
[0013]在一些可选的实施方式中,上述候选词集合通过如下方式得到:对参考文本分词序列进行关键词提取,生成候选词集合,其中,上述参考文本分词序列通过对目标语音数据对应的参考文本进行分词处理得到的,上述参考文本用于表征上述目标语音数据对应的实际语音文本内容。
[0014]在一些可选的实施方式中,上述对参考文本分词序列进行关键词提取,生成候选词集合,包括:基于上述参考文本分词序列中参考文本分词的词性、在上述参考文本分词序列中的词频以及是否属于预设停用词集合中的至少一项,生成上述候选词集合。
[0015]在一些可选的实施方式中,上述对于候选词集合中的候选词,确定该候选词的语音识别的识别率,包括:对上述目标语音数据对应的识别文本进行分词处理,得到识别文本分词序列;对于上述候选词集合中的候选词,根据该候选词在上述识别文本分词序列中的出现频次除以在上述参考文本分词序列中出现频次的比值,确定该候选词的语音识别的识别率。
[0016]在一些可选的实施方式中,上述语音识别单元进一步被配置成:对于上述候选词集合中的候选词,根据该候选词的识别率确定该候选词在第一预设语音识别引擎中的热词权重,其中,该候选词的热词权重与该候选词的识别率负相关;以及将上述候选词集合中候
选词作为热词,按照所确定的相应热词权重输入上述第一预设语音识别引擎,以实现自动语音识别。
[0017]在一些可选的实施方式中,上述语音识别单元进一步被配置成:对于上述难识别候选词集合中的候选词,确定该候选词作为热词输入第二预设语音识别引擎的热词权重;以及将上述难识别候选词集合中的候选词作为热词,按照所确定的相应热词权重输入上述第二预设语音识别引擎,以实现自动语音识别。
[0018]在一些可选的实施方式中,上述语音识别单元进一步被配置成:基于上述候选词集合中识别率大于等于上述第二预设识别率阈值小于等于上述第二预设识别率阈值的候选词生成可识别候选词集合;对于上述可识别候选词集合中的候选词,基于该候选词的识别率确定该候选词作为热词输入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,包括:对于候选词集合中的候选词,确定该候选词的语音识别的识别率;基于所述候选词集合中识别率小于第一预设识别率阈值的候选词生成难识别候选词集合;基于所述候选词集合中识别率大于第二预设识别率阈值的候选词生成易识别候选词集合,其中,所述第二预设识别率阈值大于所述第一预设识别率阈值;分别确定所述难识别候选词集合中的候选词的热词权重和所述易识别候选词集合中的候选词的热词权重,并基于所确定的热词权重进行自动语音识别。2.根据权利要求1所述的方法,其中,所述候选词集合通过如下方式得到:对参考文本分词序列进行关键词提取,生成候选词集合,其中,所述参考文本分词序列通过对目标语音数据对应的参考文本进行分词处理得到的,所述参考文本用于表征所述目标语音数据对应的实际语音文本内容。3.根据权利要求2所述的方法,其中,所述对参考文本分词序列进行关键词提取,生成候选词集合,包括:基于所述参考文本分词序列中参考文本分词的词性、在所述参考文本分词序列中的词频以及是否属于预设停用词集合中的至少一项,生成所述候选词集合。4.根据权利要求3所述的方法,其中,所述对于候选词集合中的候选词,确定该候选词的语音识别的识别率,包括:对所述目标语音数据对应的识别文本进行分词处理,得到识别文本分词序列;对于所述候选词集合中的候选词,根据该候选词在所述识别文本分词序列中的出现频次除以在所述参考文本分词序列中出现频次的比值,确定该候选词的语音识别的识别率。5.根据权利要求1所述的方法,其中,所述分别确定所述难识别候选词集合中的候选词的热词权重和所述易识别候选词集合中的候选词的热词权重,并基于所确定的热词权重进行自动语音识别,包括:对于所述候选词集合中的候选词,根据该候选词的识别率确定该候选词在第一预设语音识别引擎中的热词权重,其中,该候选词的热词权重与该候选词的识别率负相关;以及将所述候选词集合中候选词作为热词,按照所确定的相应热词权重输入所述第一预设语音识别引擎,以实现自动语音识别。6.根据权利要求1所述的方法,其中,所述分别确定所述难识别候选词集合中的候选词的热词权重和所述易识别候选词集合中的候选词的热词权重,并基于所确定的热词权重进行自动语音识别,包括:对于所...

【专利技术属性】
技术研发人员:郑翔杨晶生
申请(专利权)人:北京字跳网络技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1