语音文本获取方法及装置制造方法及图纸

技术编号：35301385 阅读：60 留言：0更新日期：2022-10-22 12:50

本发明专利技术提供了一种语音文本获取方法及装置。该方法包括针对第一音频，获取多个语音识别文本中任意两个语音识别文本之间的编辑距离；针对第一音频，计算多个语音识别系统中的每个语音识别系统的编辑距离之和；针对第一音频，根据编辑距离之和，计算每个语音识别系统的第一权重的值，第一权重为初始权重；根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数值，并选择损失函数值最小的语音识别系统对应的语音识别文本作为第一音频的输出文本，第二权重为第一权重或更新后的权重，更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。的输出文本数量确定的。的输出文本数量确定的。

全部详细技术资料下载

【技术实现步骤摘要】
语音文本获取方法及装置

[0001]本专利技术涉及语音文本识别
，尤其涉及一种语音文本获取方法及装置。

技术介绍

[0002]语音识别技术也被称为自动语音识别(Automatic Speech Recognition，ASR)，其是一种将人类的语音中的词汇内容转换为计算机可读的输入的技术，例如转换为按键、二进制编码或者字符序列(比如文本)。实现语音识别，常见的做法是使用ASR系统，将音频转换成文本。由于音频质量、语言习惯以及ASR系统具体的实现方式等因素，ASR系统无法保证语音识别文本的完全正确。基于此，目前出现了使用多个ASR系统，对不同ASR系统的语音识别文本，保留多个ASR系统转换出的多个语音识别文本中相同的部分，而对于多个语音识别文本中的不同部分则需要根据一些自定义的规则进行进一步处理。
[0003]上述的自定义的规则通常都是认为设置的且包括大量的判断操作，并且应用此类方案仍需要在ASR系统识别出语音识别文本之后，对该本文进行进一步的修改，导致此类方案的执行速度慢且适用的场景少。

技术实现思路

[0004]本专利技术的目的在于提供一种语音文本获取方法及装置，从而解决现有技术中存在的前述问题。
[0005]为了实现上述目的，本专利技术采用的技术方案如下：
[0006]第一方面，本申请至少一个实施例提供了一种语音文本获取方法，包括：针对第一音频，获取多个语音识别文本中任意两个语音识别文本之间的编辑距离，第一音频为多个音频中的任意一个音频，多个语音识别文本为第一音频经由...

【技术保护点】

【技术特征摘要】
1.一种语音文本获取方法，其特征在于，包括：针对第一音频，获取多个语音识别文本中任意两个语音识别文本之间的编辑距离，所述第一音频为多个音频中的任意一个音频，所述多个语音识别文本为所述第一音频经由多个语音识别系统识别出的语音识别文本；针对所述第一音频，计算所述多个语音识别系统中的每个语音识别系统的编辑距离之和；针对所述第一音频，根据编辑距离之和，计算每个语音识别系统的第一权重的值，所述第一权重为初始权重；根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数值，并选择损失函数值最小的语音识别系统对应的语音识别文本作为所述第一音频的输出文本，所述第二权重为所述第一权重或更新后的权重，所述更新后的权重是根据每个语音识别系统对应的输出文本数量确定的。2.根据权利要求1所述的语音文本获取方法，其特征在于，所述根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数的值，并选择损失函数的值最小的语音识别系统对应的语音识别文本作为所述第一音频的输出文本，包括：根据所述多个音频对应的输出文本，统计每个语音识别系统对应的输出文本的数量，所述多个语音识别系统中的每个语音识别系统对应的输出文本组成所述多个音频对应的输出文本；利用每个语音识别系统对应的输出文本的数量，对所述第二权重进行更新以获取所述更新后的权重；判断所述更新后的权重的值和与所述第二权重的值之间的差值是否小于或等于预设阈值；在判断结果为是时，停止对所述第二权重进行更新，并选择当前的所述多个音频对应的输出文本作为最终的输出文本；以及在判断结果为否时，重复计算每个语音识别系统的损失函数值及对所述第二权重进行更新。3.根据权利要求1或2所述的语音文本获取方法，其特征在于，在所述根据第二权重的值和多个编辑距离，计算每个语音识别系统的损失函数值，并选择损失函数值最小的语音识别系统对应的语音识别文本作为所述第一音频的输出文本之前，所述方法还包括：根据语音识别文本的长度和编辑距离，对所述多个语音识别文本打分，以获取打分分数；根据所述多个语音识别文本中的每个语音识别文本的打分分数，丢弃打分分数小于预设分数值的一个或多个音频。4.根据权利要求3所述的语音文本获取方法，其特征在于，所述对所述多个语音识别文本打分，包括：利用第一打分函数或第二打分函数对所述多个语音识别文本打分，其中，所述第一打分函数用于反映所述多个语音识别文本之间的最大误差，所述第二打分函数用于反映所述多个语音识别文本之间的误差的中间值。5.根据权利要求1所述的语音文本获取方法，其特征在于，每个语音识别系统的第一权
重表征除了对应的语音识...

【专利技术属性】
技术研发人员：王智彪，杨明祺，吕志强，
申请(专利权)人：名日之梦北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人