语音文本获取方法及装置制造方法及图纸

技术编号:35301385 阅读:60 留言:0更新日期:2022-10-22 12:50
本发明专利技术提供了一种语音文本获取方法及装置。该方法包括针对第一音频,获取多个语音识别文本中任意两个语音识别文本之间的编辑距离;针对第一音频,计算多个语音识别系统中的每个语音识别系统的编辑距离之和;针对第一音频,根据编辑距离之和,计算每个语音识别系统的第一权重的值,第一权重为初始权重;根据第二权重的值和多个编辑距离,计算每个语音识别系统的损失函数值,并选择损失函数值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本,第二权重为第一权重或更新后的权重,更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。的输出文本数量确定的。的输出文本数量确定的。

【技术实现步骤摘要】
语音文本获取方法及装置


[0001]本专利技术涉及语音文本识别
,尤其涉及一种语音文本获取方法及装置。

技术介绍

[0002]语音识别技术也被称为自动语音识别(Automatic Speech Recognition,ASR),其是一种将人类的语音中的词汇内容转换为计算机可读的输入的技术,例如转换为按键、二进制编码或者字符序列(比如文本)。实现语音识别,常见的做法是使用ASR系统,将音频转换成文本。由于音频质量、语言习惯以及ASR系统具体的实现方式等因素,ASR系统无法保证语音识别文本的完全正确。基于此,目前出现了使用多个ASR系统,对不同ASR系统的语音识别文本,保留多个ASR系统转换出的多个语音识别文本中相同的部分,而对于多个语音识别文本中的不同部分则需要根据一些自定义的规则进行进一步处理。
[0003]上述的自定义的规则通常都是认为设置的且包括大量的判断操作,并且应用此类方案仍需要在ASR系统识别出语音识别文本之后,对该本文进行进一步的修改,导致此类方案的执行速度慢且适用的场景少。

技术实现思路

[0004]本专利技术的目的在于提供一种语音文本获取方法及装置,从而解决现有技术中存在的前述问题。
[0005]为了实现上述目的,本专利技术采用的技术方案如下:
[0006]第一方面,本申请至少一个实施例提供了一种语音文本获取方法,包括:针对第一音频,获取多个语音识别文本中任意两个语音识别文本之间的编辑距离,第一音频为多个音频中的任意一个音频,多个语音识别文本为第一音频经由多个语音识别系统识别出的语音识别文本;针对第一音频,计算多个语音识别系统中的每个语音识别系统的编辑距离之和;针对第一音频,根据编辑距离之和,计算每个语音识别系统的第一权重的值,第一权重为初始权重;根据第二权重的值和多个编辑距离,计算每个语音识别系统的损失函数值,并选择损失函数值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本,第二权重为第一权重或更新后的权重,更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。
[0007]例如,在根据本专利技术第一方面的至少一个实施例提供的方法中,根据第二权重的值和多个编辑距离,计算每个语音识别系统的损失函数的值,并选择损失函数的值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本,包括:根据多个音频对应的输出文本,统计每个语音识别系统对应的输出文本的数量,多个语音识别系统中的每个语音识别系统对应的输出文本组成多个音频对应的输出文本;利用每个语音识别系统对应的输出文本的数量,对第二权重进行更新以获取更新后的权重;判断更新后的权重的值和与第二权重的值之间的差值是否小于或等于预设阈值;在判断结果为是时,停止对第二权重进行更新,并选择当前的多个音频对应的输出文本作为最终的输出文本;以及在判断结果
为否时,重复计算每个语音识别系统的损失函数值及对第二权重进行更新。
[0008]例如,在根据本专利技术第一方面的至少一个实施例提供的方法中,在根据第二权重的值和多个编辑距离,计算每个语音识别系统的损失函数值,并选择损失函数值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本之前,方法还包括:根据语音识别文本的长度和编辑距离,对多个语音识别文本打分,以获取打分分数;根据多个语音识别文本中的每个语音识别文本的打分分数,丢弃打分分数小于预设分数值的一个或多个音频。
[0009]例如,在根据本专利技术第一方面的至少一个实施例提供的方法中,对多个语音识别文本打分,包括:利用第一打分函数或第二打分函数对多个语音识别文本打分,其中,第一打分函数用于反映多个语音识别文本之间的最大误差,第二打分函数用于反映多个语音识别文本之间的误差的中间值。
[0010]例如,在根据本专利技术第一方面的至少一个实施例提供的方法中,每个语音识别系统的第一权重表征除了对应的语音识别系统的编辑距离之和之外的其他语音识别系统的编辑距离之和在所有的语音识别系统的编辑距离之和中的占比情况,其中,一个语音识别系统的编辑距离之和在所有的语音识别系统的编辑之和中的占比越高,该语音识别系统的第一权重的取值越小。
[0011]第二方面,本专利技术至少一个实施例提供了一种语音文本获取装置,包括:获取单元,用于针对第一音频,获取多个语音识别文本中任意两个语音识别文本之间的编辑距离,第一音频为多个音频中的任意一个音频,多个语音识别文本为第一音频经由多个语音识别系统识别出的语音识别文本;第一计算单元,用于针对第一音频,计算多个语音识别系统中的每个语音识别系统的编辑距离之和;第二计算单元,用于针对第一音频,根据编辑距离之和,计算每个语音识别系统的第一权重的值,第一权重为初始权重;和本文输出单元,用于根据第二权重的值和多个编辑距离,计算每个语音识别系统的损失函数值,并选择损失函数值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本,第二权重为第一权重或更新后的权重,更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。
[0012]例如,根据本专利技术第二方面的至少一个实施例提供的语音文本获取装置中,文本输出单元用于:根据所述多个音频对应的输出文本,统计每个语音识别系统对应的输出文本的数量,所述多个语音识别系统中的每个语音识别系统对应的输出文本组成所述多个音频对应的输出文本;利用每个语音识别系统对应的输出文本的数量,对所述第二权重进行更新以获取所述更新后的权重;判断所述更新后的权重的值和与所述第二权重的值之间的差值是否小于或等于预设阈值;在判断结果为是时,停止对所述第二权重进行更新,并选择当前的所述多个音频对应的输出文本作为最终的输出文本;以及在判断结果为否时,重复计算每个语音识别系统的损失函数值及对所述第二权重进行更新。
[0013]例如,根据本专利技术第二方面的至少一个实施例提供的语音文本获取装置中,该装置还包括:打分单元,用于根据语音识别文本的长度和编辑距离,对所述多个语音识别文本打分,以获取打分分数;以及根据所述多个语音识别文本中的每个语音识别文本的打分分数,丢弃打分分数小于预设分数值的一个或多个音频。
[0014]第三方面,本专利技术至少一个实施例提供了一种语音文本获取装置,包括处理器和
存储器,存储器中存储有可由处理器执行的指令,指令在处理器执行时使处理器执行如上述第一方面中任一的语音文本获取方法。
[0015]第四方面,本申请至少一个实施例提供了一种计算机可读存储介质,计算机可读存储介质存储用于由设备执行的程序代码,程序代码包括用于执行如上述第一方面中任一项的方法。
[0016]本专利技术的有益效果是:
[0017]本专利技术公开了一种语音文本获取方法及装置,该方法针对同一音频采用多个ASR系统交叉验证方法,相较于传统的语音文本获取方法,不仅能提高输出文本的正确率,而且适用性更高,以及还能使语音文本处理速度更快。
附图说明
[0018]图1是本专利技术提供的一种语音文本获取方法的流程示意图;
[0019]图2是本专利技术提供的一种语音文本获取装置的示意图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音文本获取方法,其特征在于,包括:针对第一音频,获取多个语音识别文本中任意两个语音识别文本之间的编辑距离,所述第一音频为多个音频中的任意一个音频,所述多个语音识别文本为所述第一音频经由多个语音识别系统识别出的语音识别文本;针对所述第一音频,计算所述多个语音识别系统中的每个语音识别系统的编辑距离之和;针对所述第一音频,根据编辑距离之和,计算每个语音识别系统的第一权重的值,所述第一权重为初始权重;根据第二权重的值和多个编辑距离,计算每个语音识别系统的损失函数值,并选择损失函数值最小的语音识别系统对应的语音识别文本作为所述第一音频的输出文本,所述第二权重为所述第一权重或更新后的权重,所述更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。2.根据权利要求1所述的语音文本获取方法,其特征在于,所述根据第二权重的值和多个编辑距离,计算每个语音识别系统的损失函数的值,并选择损失函数的值最小的语音识别系统对应的语音识别文本作为所述第一音频的输出文本,包括:根据所述多个音频对应的输出文本,统计每个语音识别系统对应的输出文本的数量,所述多个语音识别系统中的每个语音识别系统对应的输出文本组成所述多个音频对应的输出文本;利用每个语音识别系统对应的输出文本的数量,对所述第二权重进行更新以获取所述更新后的权重;判断所述更新后的权重的值和与所述第二权重的值之间的差值是否小于或等于预设阈值;在判断结果为是时,停止对所述第二权重进行更新,并选择当前的所述多个音频对应的输出文本作为最终的输出文本;以及在判断结果为否时,重复计算每个语音识别系统的损失函数值及对所述第二权重进行更新。3.根据权利要求1或2所述的语音文本获取方法,其特征在于,在所述根据第二权重的值和多个编辑距离,计算每个语音识别系统的损失函数值,并选择损失函数值最小的语音识别系统对应的语音识别文本作为所述第一音频的输出文本之前,所述方法还包括:根据语音识别文本的长度和编辑距离,对所述多个语音识别文本打分,以获取打分分数;根据所述多个语音识别文本中的每个语音识别文本的打分分数,丢弃打分分数小于预设分数值的一个或多个音频。4.根据权利要求3所述的语音文本获取方法,其特征在于,所述对所述多个语音识别文本打分,包括:利用第一打分函数或第二打分函数对所述多个语音识别文本打分,其中,所述第一打分函数用于反映所述多个语音识别文本之间的最大误差,所述第二打分函数用于反映所述多个语音识别文本之间的误差的中间值。5.根据权利要求1所述的语音文本获取方法,其特征在于,每个语音识别系统的第一权
重表征除了对应的语音识...

【专利技术属性】
技术研发人员:王智彪杨明祺吕志强
申请(专利权)人:名日之梦北京科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1