语音识别方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:33508941 阅读:73 留言:0更新日期:2022-05-19 01:18
本公开实施例公开了一种语音识别方法、装置、电子设备及计算机可读存储介质,所述方法包括:获取待识别语音数据,将所述待识别语音数据输入至预先训练得到的第一语音识别模型中进行语音识别,得到一个或多个第一语音识别结果及其对应的第一语音识别评价分值;响应于检测到预先设置有专项语音识别模型,将所述待识别语音数据输入至所述专项语音识别模型中,得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值;对于所述语音识别结果进行混合排序,得到目标语音识别结果。该技术方案能够快速生成个性化识别资源,借助对于个性化识别资源的调用实现对于个性化内容的精确识别,该技术方案识别率高、计算量低,且性能开销小。开销小。开销小。

【技术实现步骤摘要】
语音识别方法、装置、电子设备及计算机可读存储介质


[0001]本公开实施例涉及语音识别
,具体涉及一种语音识别方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]随着科学技术的发展,众多智能产品不断面世,为了提升用户的使用体验,增强其智能化程度,很多智能产品都支持与用户的语音互动,这就要求这些智能产品需要具有较高的语音识别能力,同时,考虑到实际应用中存在个性化语音识别的需求,比如智能产品方运营人员具有热门资源和活动口令的识别需求,智能产品用户方也具有个性化口令和个人通讯录的识别需求,因此也要求智能产品具有个性化语音识别能力。现有技术中常用的个性化语音识别实现方案主要有:1、在线训练定制识别模型,该方案针对需要定制的内容首先进行泛化再进行分词、训练等一系列操作,生成相应的识别模型。该方案的缺点是:泛化效果稳定性差,分词和训练过程消耗时间过多,训练得到的模型效果容易出现训偏和不稳定的情况;2、在线识别文本二次纠正方案,该方案需要将定制内容和在线识别内容提前转换为发音序列,然后确定两个发音序列是否能匹配成功,若匹配成功则尝试将匹配到的序列片段更改为定制的识别内容。该方案的缺点是:每次语音识别得到的识别结果都需要进行一次发音序列的转换,然后再进行定制发音序列的检索,该过程对于高交互量的语音识别系统来说是一个非常大的性能开销,而且该方案并未针对定制内容进行强化,在远场带噪音的情况下很容易出现识别结果与定制发音序列之间产生偏差,进而导致后续二次纠正流程无法正常执行。因此,亟需一种识别率高、计算量低、性能开销小的个性化语音识别方案。

技术实现思路

[0003]本公开实施例提供一种语音识别方法、装置、电子设备及计算机可读存储介质。
[0004]第一方面,本公开实施例中提供了一种语音识别方法。
[0005]具体的,所述语音识别方法,包括:
[0006]获取待识别语音数据,将所述待识别语音数据输入至预先训练得到的第一语音识别模型中进行语音识别,得到一个或多个第一语音识别结果及其对应的第一语音识别评价分值;
[0007]响应于检测到预先设置有专项语音识别模型,将所述待识别语音数据输入至所述专项语音识别模型中,得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值;
[0008]基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序,得到目标语音识别结果。
[0009]结合第一方面,本公开实施例在第一方面的第一种实现方式中,还包括:
[0010]基于训练数据训练得到所述专项语音识别模型。
[0011]结合第一方面和第一方面的第一种实现方式,本公开实施例在第一方面的第二种实现方式中,所述基于训练数据训练得到所述专项语音识别模型,包括:
[0012]基于语料训练数据训练得到框架语音识别模型;
[0013]基于专项词语集合训练得到专项语音识别资源;
[0014]融合所述框架语音识别模型和所述专项语音识别资源得到融合语音识别模型;
[0015]为所述融合语音识别模型添加拼音元素,得到所述专项语音识别模型。
[0016]结合第一方面、第一方面的第一种实现方式和第一方面的第二种实现方式,本公开在第一方面的第三种实现方式中,所述基于语料训练数据训练得到框架语音识别模型,包括:
[0017]获取语料训练数据;
[0018]对于所述语料训练数据进行类别处理,得到类别语料训练数据;
[0019]对于所述语料训练数据和类别语料训练数据进行分词处理得到语料分词训练数据;
[0020]基于所述语料训练数据进行基于后验概率的模型训练得到所述框架语音识别模型。
[0021]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式和第一方面的第三种实现方式,本公开在第一方面的第四种实现方式中,所述对于所述语料训练数据进行类别处理,包括:
[0022]将所述语料训练数据中的类别内容替换为类别标识信息,其中,所述类别标识信息对应一个或多个类别内容。
[0023]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式和第一方面的第四种实现方式,本公开在第一方面的第五种实现方式中,所述基于专项词语集合训练得到专项语音识别资源,包括:
[0024]获取专项词语集合,其中,所述专项词语集合与所述待识别语音数据从属方相对应;
[0025]确定所述专项词语集合中专项词语所属类别;
[0026]对于所述专项词语和专项词语所属类别进行分词处理得到类别分词训练数据;
[0027]基于所述类别分词训练数据进行基于后验概率的模型训练得到与所述类别标识信息对应的专项语音识别资源,其中,所述专项语音识别资源包括类别标识信息以及与其对应的文字内容。
[0028]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式和第一方面的第五种实现方式,本公开在第一方面的第六种实现方式中,所述融合所述框架语音识别模型和所述专项语音识别资源得到融合语音识别模型,包括:
[0029]将所述框架语音识别模型中的类别标识信息替换为所述专项语音识别资源中与所述类别标识信息对应的文字内容。
[0030]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式和第一方面的第六种实现方式,本公开在第一方面的第七种实现方式中,所述为所述融合语音识别
模型添加拼音元素,得到所述专项语音识别模型,包括:
[0031]为所述融合语音识别模型中的文字添加拼音,得到所述专项语音识别模型。
[0032]结合第一方面、第一方面的第一种实现方式、第一方面的第二种实现方式、第一方面的第三种实现方式、第一方面的第四种实现方式、第一方面的第五种实现方式、第一方面的第六种实现方式和第一方面的第七种实现方式,本公开在第一方面的第八种实现方式中,所述基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序,得到目标语音识别结果,包括:
[0033]基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序;
[0034]将语音识别评价分值最高的语音识别结果作为目标语音识别结果。
[0035]第二方面,本公开实施例中提供了一种语音识别装置。
[0036]具体的,所述语音识别装置,包括:
[0037]第一识别模块,被配置为获取待识别语音数据,将所述待识别语音数据输入至预先训练得到的第一语音识别模型中进行语音识别,得到一个或多个第一语音识别结果及其对应的第一语音识别评价分值;
[0038]第二识别模块,被配置为响应于检测到预先设置有专项语音识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法,包括:获取待识别语音数据,将所述待识别语音数据输入至预先训练得到的第一语音识别模型中进行语音识别,得到一个或多个第一语音识别结果及其对应的第一语音识别评价分值;响应于检测到预先设置有专项语音识别模型,将所述待识别语音数据输入至所述专项语音识别模型中,得到一个或多个第二语音识别结果及其对应的第二语音识别评价分值;基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序,得到目标语音识别结果。2.根据权利要求1所述的方法,还包括:基于训练数据训练得到所述专项语音识别模型。3.根据权利要求2所述的方法,所述基于训练数据训练得到所述专项语音识别模型,包括:基于语料训练数据训练得到框架语音识别模型;基于专项词语集合训练得到专项语音识别资源;融合所述框架语音识别模型和所述专项语音识别资源得到融合语音识别模型;为所述融合语音识别模型添加拼音元素,得到所述专项语音识别模型。4.根据权利要求3所述的方法,所述基于语料训练数据训练得到框架语音识别模型,包括:获取语料训练数据;对于所述语料训练数据进行类别处理,得到类别语料训练数据;对于所述语料训练数据和类别语料训练数据进行分词处理得到语料分词训练数据;基于所述语料训练数据进行基于后验概率的模型训练得到所述框架语音识别模型。5.根据权利要求4所述的方法,所述对于所述语料训练数据进行类别处理,包括:将所述语料训练数据中的类别内容替换为类别标识信息,其中,所述类别标识信息对应一个或多个类别内容。6.根据权利要求5所述的方法,所述基于专项词语集合训练得到专项语音识别资源,包括:获取专项词语集合,其中,所述专项词语集合与所述待识别语音数据从属方相对应;确定所述专项词语集合中专项词语所属类别;对于所述专项词语和专项词语所属类别进行分词处理得到类别分词训练数据;基于所述类别分词训练数据进行基于后验概率的模型训练得到与所述类别标识信息对应的专项语音识别资源,其中,所述专项语音识别资源包括类别标识信息以及与其对应的文字内容。7.根据权利要求5或6所述的方法,所述融合所述框架语音识别模型和所述专项语音识别资源得到融合语音识别模型,包括:将所述框架语音识别模型中的类别标识信息替换为所述专项语音识别资源中与所述类别标识信息对应的文字内容。8.根据权利要求3

7任一所述的方法,所述为所述融合语音识别模型添加拼音元素,得到所述专项语音识别模型,包括:
为所述融合语音识别模型中的文字添加拼音,得到所述专项语音识别模型。9.根据权利要求1

8任一所述的方法,所述基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序,得到目标语音识别结果,包括:基于所述第一语音识别评价分值和第二语音识别评价分值对于所述第一语音识别结果和第二语音识别结果进行混合排序;将语音识别评价分值最高的语音识别结果作为目标语音识别结果。10.一种语音识别装置,包括:第一识别模块,被配置为获取待识别语音数据,将所述待识别语音数据输入至预先训练得到的第一语音识别模型中进行语音识别,得到一个或多个第一语音识别结果及其对应的第一语音识别评价分值;第二识别...

【专利技术属性】
技术研发人员:汪洋赵鹏程
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1