领域自适应语音识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:37978498 阅读:6 留言:0更新日期:2023-06-30 09:53
本发明专利技术公开了一种领域自适应语音识别方法、装置、计算机设备及存储介质,该方法包括:获取待识别语音数据;对所述待识别语音数据进行一次解码,获取多个候选识别结果,从多个候选识别结果中获取最优识别结果;根据所述最优识别结果进行领域判断,确定目标领域;采用所述目标领域对应的目标语言模型,对多个所述候选识别结果进行二次解码,获取目标识别结果。该方法采用目标领域对应的目标语言模型对多个候选识别结果进行二次解码,可适应用户多变的说话领域,提升多领域和跨领域识别时的准确性,提升语音识别的鲁棒性,提供更好的用户体验。验。验。

【技术实现步骤摘要】
领域自适应语音识别方法、装置、计算机设备及存储介质


[0001]本专利技术涉及语音识别
,尤其涉及一种领域自适应语音识别方法、装置、计算机设备及存储介质。

技术介绍

[0002]语音识别技术已经广泛应用在很多场景中,并且取得了不错的效果。但是,由于人类语言和语音信号本身的复杂性,依赖目前的模型性能,语音识别系统无法保证在任何场景中都取得很好的识别精度。现有的语音识别模型一般针对特征领域的语音识别结果较准确,如果要兼顾多个领域,甚至不限定语音领域时,其语音识别准确性就会大幅度下降。例如,金融领域的语音识别系统对涉及到金融领域的语音,有很高的识别准确性,但对音乐、游戏或者其他领域的语音,语音识别准确性就会大幅下降。而在实际应用场景中,用户说话的内容所属领域往往是非常广泛的,用户在不同的时刻会说不同领域的内容,普通的语音识别系统难以应对用户这种复杂的使用需求,影响用户体验。

技术实现思路

[0003]本专利技术实施例提供一种领域自适应语音识别方法、装置、计算机设备及存储介质,以解决多领域或跨领域语音识别准确性的问题。
[0004]一种领域自适应语音识别方法,包括:
[0005]获取待识别语音数据;
[0006]对所述待识别语音数据进行一次解码,获取多个候选识别结果,从多个所述候选识别结果中获取最优识别结果;
[0007]根据所述最优识别结果进行领域判断,确定目标领域;
[0008]采用所述目标领域对应的目标语言模型,对多个所述候选识别结果进行二次解码,获取目标识别结果。
[0009]一种领域自适应语音识别装置,包括:
[0010]待识别语音数据获取模块,用于获取待识别语音数据;
[0011]一次解码结果获取模块,用于对所述待识别语音数据进行一次解码,获取多个候选识别结果,从多个所述候选识别结果中获取最优识别结果;
[0012]目标领域确定模块,用于根据所述最优识别结果进行领域判断,确定目标领域;
[0013]目标识别结果获取模块,采用所述目标领域对应的目标语言模型,对多个所述候选识别结果进行二次解码,获取目标识别结果。
[0014]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述领域自适应语音识别方法。
[0015]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述领域自适应语音识别方法。
[0016]上述领域自适应语音识别方法、装置、计算机备及存储介质,采用目标领域对应的目标语言模型对多个候选识别结果进行二次解码,可使获得目标识别结果更加精确,更加符合实际;其中,根据待识别语音数据的最优识别结果,自动判断待识别语音数据的目标领域,以适应用户多变的说话领域,提升多领域和跨领域语音识别的准确性,提升了语音识别的鲁棒性,提供了更好的用户体验。
附图说明
[0017]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0018]图1是本专利技术一实施例中领域自适应语音识别方法的一应用环境示意图;
[0019]图2是本专利技术一实施例中领域自适应语音识别方法的一流程图;
[0020]图3是本专利技术一实施例中领域自适应语音识别方法的另一流程图;
[0021]图4是本专利技术一实施例中领域自适应语音识别方法的另一流程图;
[0022]图5是本专利技术一实施例中领域自适应语音识别方法的另一流程图;
[0023]图6是本专利技术一实施例中领域自适应语音识别方法的另一流程图;
[0024]图7是本专利技术一实施例中领域自适应语音识别方法的另一流程图;
[0025]图8是本专利技术一实施例中领域自适应语音识别方法的另一流程图;
[0026]图9是本专利技术一实施例中领域自适应语音识别装置的一示意图;
[0027]图10是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0028]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0029]本专利技术实施例提供的领域自适应语音识别方法,该领域自适应语音识别方法可应用如图1所示的应用环境中。具体地,该领域自适应语音识别方法应用在领域自适应语音识别系统中,该领域自适应语音识别系统包括如图1所示的客户端和服务器,客户端与服务器通过网络进行通信,用于实现领域自适应语音识别。其中,客户端又称为用户端,是指与服务器相对应,为客户提供本地服务的程序。客户端可安装在但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备上。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0030]在一实施例中,如图2所示,提供一种领域自适应语音识别方法,以该方法应用在图1中的服务器为例进行说明,包括如下步骤:
[0031]S201:获取待识别语音数据;
[0032]S202:对待识别语音数据进行一次解码,获取多个候选识别结果,从多个候选识别结果中获取最优识别结果;
[0033]S203:根据最优识别结果进行领域判断,确定目标领域;
[0034]S204:采用目标领域对应的目标语言模型,对多个候选识别结果进行二次解码,获取目标识别结果。
[0035]其中,待识别语音数据是指需要进行识别的语音数据,该待识别语音数据可以为多领域的语音数据或跨领域的语音数据,其内容可以涵盖各个领域。
[0036]作为一示例,步骤S201中,服务器可以获取待识别语音数据,该待识别语音数据可以为多领域的语音数据或者跨领域的语音数据。本示例中,服务器获取各个领域的待识别语音数据,作为后续一次解码的输入数据,保障后续一次解码的可行性。
[0037]其中,一次解码是指对待识别语音数据进行识别处理,获取多个语音识别结果的过程。候选识别结果是指对待识别语音数据进行一次解码后识别出的概率较大的多个识别结果,具体可理解为识别概率较大的多个识别路径或者多个原始识别句子。最优识别结果为多个候选识别结果中识别效果最好的一个识别结果。
[0038]作为一示例,步骤S202中,服务器对获取到待识别语音数据进行一次解码处理,获取多个候选识别结果,再从多个候选识别结果中获取最优识别结果。本示例中,对待识别语音数据进行一次解码时,首先使用声学模型对待识别语音数据进行处理,获取声学模型处理结果;随后使用通用语言模型对待识别语音数据进行处理,获取通用语言模型处理结果;选取声学模型处理本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种领域自适应语音识别方法,其特征在于,包括:获取待识别语音数据;对所述待识别语音数据进行一次解码,获取多个候选识别结果,从多个所述候选识别结果中获取最优识别结果;根据所述最优识别结果进行领域判断,确定目标领域;采用所述目标领域对应的目标语言模型,对多个所述候选识别结果进行二次解码,获取目标识别结果。2.如权利要求1所述的领域自适应语音识别方法,其特征在于,所述对所述待识别语音数据进行一次解码,获取多个候选识别结果,从多个所述候选识别结果中获取最优识别结果,包括:采用声学模型对所述待识别语音数据进行解码处理,获取多个原始识别句子和每个所述原始识别句子对应的目标声学分值;采用通用语言模型对所述待识别语音数据进行解码处理,获取多个原始识别句子和每个所述原始识别句子对应的第一语言分值;根据多个所述原始识别句子对应的目标声学分值和第一语言分值进行处理,获取多个所述原始识别句子对应的第一识别分值;对多个所述原始识别句子对应的第一识别分值进行排序,将第一识别分值大的前N个原始识别句子,确定为多个候选识别结果,N≥2;从多个所述候选识别结果中,选取第一识别分值最大的一个原始识别句子,确定为最优识别结果。3.如权利要求2所述的领域自适应语音识别方法,其特征在于,所述候选识别结果包括候选识别句子和所述候选识别句子对应的目标声学分值;所述采用所述目标领域对应的目标语言模型,对多个所述候选识别结果进行二次解码,获取目标识别结果,包括:采用所述目标领域对应的目标语言模型,对多个所述候选识别结果进行二次解码,获取多个所述候选识别句子和每个所述候选识别句子对应的第二语言分值;对每个所述候选识别句子对应的第二语言分值和所述目标声学分值进行处理,获取每个所述候选识别句子对应的第二识别分值;依据所述第二识别分值对多个所述候选识别句子进行排序,将所述第二识别分值最大的候选识别句子,确定为目标识别结果。4.如权利要求3所述的领域自适应语音识别方法,其特征在于,所述候选识别结果还包括所述候选识别句子对应的第一语言分值;所述对每个所述候选识别句子对应的第二语言分值和所述目标声学分值进行处理,获取每个所述候选识别句子对应的第二识别分值,包括:根据每个所述候选识别句子对应的第一语言分值和第二语言分值,确定每个所述候选识别句子对应的目标语言分值;对每个所述候选识别句子对应的目标语言分值和每个所述候选识别句子对应的目标声学分值进行处理,获取每个所述候选识别句子对应...

【专利技术属性】
技术研发人员:赵梦原王健宗程宁
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1