一种语音识别方法、装置、设备及存储介质制造方法及图纸

技术编号:29159900 阅读:20 留言:0更新日期:2021-07-06 23:00
一种语音识别方法、装置、设备及存储介质。本发明专利技术实施例的技术方案,通过获取待识别的语音;将所获取语音输入到至少两种语音识别器中,输出各自语音识别器对应的最优识别结果;将各个语种的最优识别结果分别输入对应语法的识别结果处理器,进行基于语法的置信度校准,输出对应语法识别结果的置信度;将各语法的置信度结果一并送入置信度判决器,进行置信度判决,确定最终识别结果与对应语种;将通过置信度判决的语种所对应的识别结果输出至用户界面,同时返回该识别结果对应的语种,解决了应用在一些场景下需要识别两种或多种语种的语音时,需要用户主动选择的问题,且识别时延低。

【技术实现步骤摘要】
一种语音识别方法、装置、设备及存储介质
本专利技术实施例涉及语音识别
,尤其涉及一种语音识别方法、装置、设备及存储介质。
技术介绍
语音识别技术已经广泛应用于各种应用中。现在,有很多应用的语音识别功能需要同时支持两种甚至更多种语言。为了让每种语言的识别性能达到最好,通常的实现方式是为每种语言单独部署服务,即在前端操作界面要求用户选择所使用的语言,然后调用相应语言的功能模块。但在一些特定场景下,例如会议记录场景,这种切换操作不方便实现与操作。还有一类实现方式是把语音先做语种分类,然后送往相对应的语种语音识别服务。这种实现方式往往会为识别带来延迟。因为需要先给语种分类器足够多的数据让它产生可靠的判断结果后,再将缓存的语音和后续语音送给后面相应语种的识别器。
技术实现思路
本专利技术实施例提供了一种语音识别方法、装置、设备及存储介质,可以提高语音识别与判别的便利性,无需用户主动选择,且减少延迟。第一方面,本专利技术实施例提供了一种语音识别方法,该方法包括:获取待识别的语音;将所获取语音输入到至少两种语音识别器中,输出各自语音识别器对应的最优识别结果;将各个语种的最优识别结果分别输入对应语法的识别结果处理器,进行基于语法的置信度校准,输出对应语法识别结果的置信度;将各语法的置信度结果一并送入置信度判决器,进行置信度判决,确定最终识别结果与对应语种;输出通过置信度判决的语种所对应的识别结果,同时输出该识别结果对应的语种。第二方面,本专利技术实施例还提供了一种语音识别装置,该装置包括:语音获取模块,用于获取待识别的语音;语音识别模块,用于将所获取语音输入到至少两种语音识别器中,输出对应的最优识别结果;识别结果处理模块,用于将各个语种的最优识别结果进行基于语法的置信度校准,并输出对应语法识别结果的置信度;置信度判决模块,用于对各语法识别结果的置信度进行判决,确定所获取待识别语音的最终识别结果与对应语种。第三方面,本专利技术实施例还提供了一种语音识别设备,该设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本专利技术任意实施例所述的一种语音识别方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本专利技术任意实施例所述的一种语音识别方法。本专利技术实施例的技术方案,通过获取待识别的语音;将所获取语音输入到至少两种语音识别器中,输出各自语音识别器对应的最优识别结果;将各个语种的最优识别结果分别输入对应语法的识别结果处理器,进行基于语法的置信度校准,输出对应语法识别结果的置信度;将各语法的置信度结果一并送入置信度判决器,进行置信度判决,确定最终识别结果与对应语种;输出通过置信度判决的语种所对应的识别结果,同时返回该识别结果对应的语种,解决了应用在一些场景下需要识别两种或多种语种的语音时,需要用户主动选择的问题,且识别时延低。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1是本专利技术实施例一提供的一种语音识别方法的流程图;图2是本专利技术实施例二提供的一种语音识别方法的置信度判决逻辑图;图3是本专利技术实施例三提供的一种语音识别装置的框架示意图;图4是本专利技术实施例四提供的一种语音识别设备的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1是本专利技术实施例一提供的一种语音识别方法的流程图,本实施例可适用于对不同语种的语音进行识别的情况,该方法可以由语音识别装置来执行,该装置可以通过软件,和/或硬件的方式实现,装置可以集成在处理器中,如图1所示,该方法具体包括:步骤110、获取待识别的语音。其中,待识别的语音可以是某一种语种的一段语音,例如可以是一段中文的语音,或者,一段外文(可以是英文、日文、法文、俄文等)的语音;也可以是一段普通话的语音,或者,一段方言(可以是闽南语、东北语、陕西话、粤语等)的语音。获取待识别的语音的方式可以是通过麦克风等设备采集语音,本专利技术不做具体限定。步骤120、将所获取语音输入到至少两种语音识别器中,输出各自语音识别器对应的最优识别结果;其中,如果无法识别出结果的就直接出局,不再经过后面的识别结果后处理和置信度判决模块。步骤130、将各个语种的最优识别结果分别输入对应语法的识别结果处理器,进行基于语法的置信度校准,输出对应语法识别结果的置信度。之所以要做这一步,是因为连续语音听写的语言模型一般都较为庞大,词表也很丰富。只要听写识别能够出结果,置信度一般不会太低。但各个语种自己听写出来的置信度并不好直接比较,因为里面掺杂了太多语言层的信息。因此需要在各自识别的结果基础上,将最优识别结果转换为语法受限识别,用语法强制对齐的方式,单纯评估用户输入语音,在听写识别转换的文字结果上所对应的声学模型上的置信度高低,从而从声学层做出可以跨语言比较的置信度。每个语种自己的识别后处理模块,都表征了输入语音在自己的声学模型上的匹配程度。在本专利技术实施例的一个实施方式中,可选的,将每个语种对应的语音识别器输出的最优结果分别组织成语法形式,其中,语法形式为ABNF或者JSGF等均可,取决于解码器的语法编译技术。例如,中文的识别结果为:这是咋的呼啦圈;英文识别结果为:Thisisagooddaytodive。中文的语法组织形式为:<utt>=这是咋的呼啦圈;英文的语法组织形式为:<utt>=Thisisagooddaytodive。之后,将语法编译为识别器可以接受的搜索图并加载,然后把识别缓存的音频送入解码器进行基于语法的强制对齐识别,得到对应语法识别结果的置信度。步骤140、将各语法的置信度结果一并送入置信度判决器,进行置信度判决,确定最终识别结果与对应语种。在本专利技术实施例的一个实施方式中,可选的,各语种识别器的识别后处理模块输出置信度后,送入置信度判决模块,对结果进行排序,得分最高且大于绝对置信度的语种输出即判决为真正用户输入的语言。置信度是一个介于0~1之间的归一化数值,数值越大表明吻合度越高。可选的,绝对置信度数值范围为0.4~1。可选的,绝对置信度选取为0.6。步骤150、输出通过置信度判决的语种所对应的识别结果,同时输出该识别结果对应的语种。本专利技术实施例的技术方案,通过本文档来自技高网...

【技术保护点】
1.一种语音识别方法,其特征在于,包括:/n获取待识别的语音;/n将所获取语音输入到至少两种语音识别器中,输出各自语音识别器对应的最优识别结果;/n将各个语种的最优识别结果分别输入对应语法的识别结果处理器,进行基于语法的置信度校准,输出对应语法识别结果的置信度;/n将各语法的置信度结果一并送入置信度判决器,进行置信度判决,确定最终识别结果与对应语种;/n输出通过置信度判决的语种所对应的识别结果,同时输出该识别结果对应的语种。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,包括:
获取待识别的语音;
将所获取语音输入到至少两种语音识别器中,输出各自语音识别器对应的最优识别结果;
将各个语种的最优识别结果分别输入对应语法的识别结果处理器,进行基于语法的置信度校准,输出对应语法识别结果的置信度;
将各语法的置信度结果一并送入置信度判决器,进行置信度判决,确定最终识别结果与对应语种;
输出通过置信度判决的语种所对应的识别结果,同时输出该识别结果对应的语种。


2.根据权利要求1所述的方法,其特征在于,所述将各个语种的最优识别结果分别输入对应语法的识别结果处理器,进行基于语法的置信度校准,输出对应语法识别结果的置信度,包括:
将最优识别结果转换为语法受限识别,用语法强制对齐的方式单纯评估输入语音。


3.根据权利要求2所述的方法,其特征在于,所述将各语法的置信度结果一并送入置信度判决器,进行置信度判决,确定最终识别结果与对应语种,包括:
对各语法的置信度结果进行排序,置信度最高且超出绝对置信度的语种即判决为所获取语音所使用的语种,则输出对应的识别结果与语法;
如各语法的置信度结果中,最高置信度小于绝对置信度,则不输出任何结果。


4.根据权利要求2所述的方法,其特征在于,所诉将最优识别结果转换为语法受限识别,包括:根据解码器的语法编译技术,将最优识别结果分别组织成语法形式,所述语法形式包括ABNF或者JSG。


5.根据权利要求3所述的方法,其特征在于,所述对各语法的置信度结果进行排序,置信度最高且大于绝对置信度的语种即判决为所获取语音所使用的语种,包括:
所述绝对置信度数值范围为0.4~1。

【专利技术属性】
技术研发人员:徐燃
申请(专利权)人:北京儒博科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1