模型输出的后处理方法、装置和计算机设备制造方法及图纸

技术编号:31226936 阅读:19 留言:0更新日期:2021-12-08 09:34
本申请提供了一种模型输出的后处理方法、装置和计算机设备,识别系统获取语音识别模型输出的概率矩阵,在概率矩阵中进行窗口搜索,基于阈值对所述概率矩阵进行规则处理,剔除概率矩阵中的无效路径,并且概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果,分别计算出各个窗口区间各自对应的概率值。最后筛选概率值最高的窗口区间对应的命令词作为语音识别结果。本申请通过基于阈值的规则处理,有效保证了概率矩阵的数值稳定性。并采用概率累乘计算的方式替换log域计算,从而降低计算量。在窗口搜索的过程中,后一窗口区间的概率计算基于前一窗口区间的概率结果,从而减少重复计算的过程,进一步降低了计算量,有效加快了处理速度。加快了处理速度。加快了处理速度。

【技术实现步骤摘要】
模型输出的后处理方法、装置和计算机设备


[0001]本申请涉及语音识别
,特别涉及一种模型输出的后处理方法、装置和计算机设备。

技术介绍

[0002]现有语音识别的后处理算法,是基于神经网络输出的概率矩阵,在概率矩阵的基础上进行最优路径的搜索。最优路径的搜索通常是采用概率累乘算法获取得到,但由于数值稳定性的考虑,一般采用logsum的方式进行处理(先把概率值转换为log值,概率值之间的乘法转换为log的加法),在计算完成后再转换为原先的概率值。
[0003]这种处理方法虽然可以带来数值稳定性的好处,但是由于引入了大量的log运算,导致在嵌入式等资源受限的设备上运用时,由于计算量过大导致计算耗时过长,严重影响算法的实时性。

技术实现思路

[0004]本申请的主要目的为提供一种模型输出的后处理方法、装置和计算机设备,旨在解决现有语音识别的后处理算法计算量大、计算耗时过长的弊端。
[0005]为实现上述目的,本申请提供了一种模型输出的后处理方法,包括:获取语音识别模型输出的概率矩阵;在所述概率矩阵中进行窗口搜索,在窗口搜索过程中,基于阈值对所述概率矩阵进行规则处理,剔除所述概率矩阵中的无效路径,并且所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果,分别计算出各个窗口区间各自对应的概率值;筛选所述概率值最高的窗口区间对应的命令词作为语音识别结果。
[0006]本申请还提供了一种模型输出的后处理装置,包括:获取模块,用于获取语音识别模型输出的概率矩阵;搜索模块,用于在所述概率矩阵中进行窗口搜索,在窗口搜索过程中,基于阈值对所述概率矩阵进行规则处理,剔除所述概率矩阵中的无效路径,并且所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果,分别计算出各个窗口区间各自对应的概率值;筛选模块,用于筛选所述概率值最高的窗口区间对应的命令词作为语音识别结果。
[0007]本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
[0008]本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
[0009]本申请中提供的一种模型输出的后处理方法、装置和计算机设备,识别系统获取语音识别模型输出的概率矩阵,然后在概率矩阵中进行窗口搜索。在窗口搜索过程中,基于
阈值对概率矩阵进行规则处理,剔除概率矩阵中的无效路径,并且概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果,分别计算出各个窗口区间各自对应的概率值。最后,筛选概率值最高的窗口区间对应的命令词作为语音识别结果。本申请通过基于阈值的规则处理,有效保证了概率矩阵的数值稳定性。在保证概率矩阵的数值稳定性后,采用概率累乘计算的方式替换log域计算,从而降低计算量。在窗口搜索的过程中,后一窗口区间的概率计算基于前一窗口区间的概率结果,从而减少重复计算的过程,进一步降低了计算量,有效加快了处理速度。
附图说明
[0010]图1是本申请一实施例中模型输出的后处理方法的步骤示意图;图2是本申请一实施例中模型输出的后处理装置的整体结构框图;图3是本申请一实施例的计算机设备的结构示意框图。
[0011]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0012]为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0013]参照图1,本申请一实施例中提供了一种模型输出的后处理方法,包括:S1:获取语音识别模型输出的概率矩阵;S2:在所述概率矩阵中进行窗口搜索,在窗口搜索过程中,基于阈值对所述概率矩阵进行规则处理,剔除所述概率矩阵中的无效路径,并且所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果,分别计算出各个窗口区间各自对应的概率值;S3:筛选所述概率值最高的窗口区间对应的命令词作为语音识别结果。
[0014]本实施例中,用户将语音数据输入语音识别模型,语音识别模型对语音数据进行相应处理后,输出该语音数据对应的概率矩阵(以ctc(Connectionist Temporal Classification)方式为例,语音识别模型输出的概率矩阵为音素概率矩阵,大小是序列长度*音素类数的矩阵)。识别系统对语音识别模型输出的概率矩阵进行后处理,从而识别得到最终结果。识别系统在概率矩阵中进行窗口搜索,窗口搜索过程中,首先基于阈值对概率矩阵进行规则处理,剔除概率矩阵中的无效路径,从而保证数值稳定性。具体地,识别系统首先调取第一阈值,并将概率矩阵中小于第一阈值的概率值替换为第一阈值(即将概率矩阵中小于第一阈值的音素单元对应的概率值在后续的处理中,统一按照第一阈值处理),第一阈值根据计算精度进行相应设置。然后,识别系统调取第二阈值,并将概率矩阵中各个路径上的音素单元对应位置的概率值与第二阈值进行比对,判断两者之间的大小关系,其中,第二阈值根据语音数据发音的置信度设定进行相应设置。如果某个路径上小于第二阈值的概率值的个数,大于该路径的路径长度的预设比例,则判定该路径为无效路径,无效路径后续不需要再进行概率累乘计算。然后,识别系统在剔除无效路径后的概率矩阵中进行窗口区间的计算,分别计算各个窗口区间对应的概率值(单个窗口区间对应的概率值,由该窗口区间内命令词的各个路径的概率累乘结果相加得到)。在进行窗口区间的计算过程中,概率
矩阵上的后一个窗口区间的概率计算基于前一个窗口区间的概率结果。以窗口搜索对应的子窗口的left为1,right为3为例进行说明,当前的窗口区间为【1,3】,在对窗口区间【1,3】进行概率计算时,基于相邻的前一窗口区间【1,2】中,以1(left)为起点,到达终列2(right)的每个点的概率累乘结果,从而计算得到窗口区间【1,3】以1(left)为起点,到达终点列3(right+1)的概率值;即直接根据前一窗口区间right列的概率结果与概率矩阵中当前窗口区间right+1列的概率算出当前窗口区间所对应的概率值。按照上述规则,识别系统分别计算出各个窗口区间对应的概率值。在得到各个概率值后,识别系统从中筛选出概率值最高的窗口区间对应的命令词作为当前次的语音识别结果。
[0015]本实施例通过基于阈值的规则处理,有效保证了概率矩阵的数值稳定性。在保证概率矩阵的数值稳定性后,采用概率累乘计算的方式替换log域计算,从而降低计算量。在窗口搜索的过程中,后一窗口区间的概率计算基于前一窗口区间的概率结果,从而减少重复计算的过程,进一步降低了计算量,有效加快了处理速度。
[0016]进一步的,所述基于阈值对所述概率矩阵进行规则处理,剔除所述概率矩阵中的无效路径的步骤中,所述无效路径的识别规则包括:S201:调取第一阈值,并将所述概率矩阵中小于所述第一阈值的概率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型输出的后处理方法,其特征在于,包括:获取语音识别模型输出的概率矩阵;在所述概率矩阵中进行窗口搜索,在窗口搜索过程中,基于阈值对所述概率矩阵进行规则处理,剔除所述概率矩阵中的无效路径,并且所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果,分别计算出各个窗口区间各自对应的概率值;筛选所述概率值最高的窗口区间对应的命令词作为语音识别结果。2.根据权利要求1所述的模型输出的后处理方法,其特征在于,所述基于阈值对所述概率矩阵进行规则处理,剔除所述概率矩阵中的无效路径的步骤中,所述无效路径的识别规则包括:调取第一阈值,并将所述概率矩阵中小于所述第一阈值的概率值替换为所述第一阈值;调取第二阈值,并获取第一路径中小于所述第二阈值的概率值的个数;若小于所述第二阈值的概率值的个数大于预设比例的所述第一路径的路径长度,则判定所述第一路径为所述无效路径。3.根据权利要求2所述的模型输出的后处理方法,其特征在于,所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果,分别计算出各个窗口区间各自对应的概率值的步骤,包括:在对所述概率矩阵中的第二路径做概率累乘计算的过程中,每得到一个概率累乘结果,则判断所述概率累乘结果是否小于所述第一阈值;若所述概率累乘结果小于所述第一阈值,则停止对所述第二路径做概率累乘计算,并将所述第二路径标定为无效路径。4.根据权利要求1所述的模型输出的后处理方法,其特征在于,所述概率矩阵的后一窗口区间的概率计算基于上一窗口区间的概率结果,分别计算出各个窗口区间各自对应的概率值的步骤中,单个所述窗口区间的每个位置的概率值的计算步骤包括:根据所述窗口搜索的左指针在窗口范围内遍历,计算所述窗口区间在所述窗口搜索的右指针首列的第一概率结果,其中,所述右指针的值与所述窗口搜索的窗口长度相同;将所述第一概率结果与所...

【专利技术属性】
技术研发人员:李杰王广新杨汉丹
申请(专利权)人:深圳市友杰智新科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1