文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质技术方案

技术编号:29136580 阅读:14 留言:0更新日期:2021-07-02 22:32
一种文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质,通过对音频数据进行语音识别,获取对应的语音识别文本;对语音识别文本进行编码,获取语音识别文本的特征向量;将参考文本的特征向量和语音识别文本的特征向量输入至解码器进行解码,并根据解码结果计算损失函数,通过优化损失函数训练生成文本纠错模型;利用文本纠错模型对待处理的一个或多个语音识别文本进行文本纠错,获取纠错后的正确文本。本发明专利技术提供了一种针对ASR识别文本进行纠错的方案,不仅可以纠正常见的ASR识别文本中的替换类型错误,而且对于文本插入类错误、文本删除类错误也可以进行文本纠正。此外,本发明专利技术还可以使纠正后的句子更加通顺,更利于人们阅读理解。

【技术实现步骤摘要】
文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质
本专利技术涉及语音识别
,特别是涉及一种文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质。
技术介绍
自动语音识别(ASR)是一项利用计算机将连续语音转写为文字的技术。随着深度学习技术的不断发展,对于一些垂直领域,目前ASR存在过高的错词率。例如在基于kaldi的语音识别系统中,解码过程使用的语言模型一般都是建立在3gram之上,在计算下一个词时只考虑前两个词的特征,从而转写出的文本可能在句子层面出现文法上的错误或者语义不连贯的情况。另一方面,在不同的领域,由于词的频率分布不同,一些常用术语容易被识别为其他发音相近的高频词汇。为了进一步提升ASR识别的准确率,现有技术提出了一些对语音识别文本纠错的方法,其在模型结构上,工业界普遍采用的是分阶段纠错架构,通常分为错误检测、候选召回、纠错排序等阶段。分阶段模块化的设计方便各模块单独优化,落地效果比较好。但这种构架主要适用于错误的文本和正确的参考文本等长的场景,比如拼音纠错。在ASR解码的候选结果中,有大量插入或者删除的错误,句子长短不一,这很大程度限制了该方法在ASR文本纠错中的应用。此外,ASR中替换类错误,也不限于相似音的错误,而且不同词出错概率以及错词的分布也不尽相同。因此,基于相似音构建的数据集和真实ASR场景中错词分布会存在显著差异,在此基础上训练出来的模型表现会低于验证集上的表现。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种文本纠错模型生成方法及系统、文本纠错方法、系统、设备及介质,用于解决现有技术中存在的技术问题。为实现上述目的及其他相关目的,本专利技术提供一种文本纠错模型生成方法,包括以下步骤:对音频数据进行语音识别,获取对应的语音识别文本;对所述语音识别文本进行编码,获取语音识别文本的特征向量;将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器进行解码,并根据解码结果计算损失函数,通过优化所述损失函数训练生成文本纠错模型;其中,所述参考文本是与所述音频数据对应的正确文本。可选地,所述对所述语音识别文本进行编码,获取语音识别文本的特征向量,包括:对获取的语音识别文本进行词条切分,获取一个或多个词条;通过目标字典将所述一个或多个词条映射为词条编号;利用词条嵌入矩阵对每个词条编号进行编码,获取对应的词条编号特征向量;以及利用位置嵌入矩阵对每个词条在所述语音识别文本中的位置序号进行编码,获取与所述词条编号特征向量具有相同维度的词条位置特征向量;对所述词条编号特征向量和所述词条位置特征向量进行融合,获取所述语音识别文本的特征向量;其中,所述融合包括以下至少之一:相加、相减、拼接。可选地,所述将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器进行解码,并根据解码结果计算损失函数,通过优化所述损失函数训练生成文本纠错模型,包括:将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器,并利用所述解码器对所述语音识别文本的特征向量进行解码,获取解码结果;对所述语音识别文本的特征向量进行线性变换以及对所述参考文本进行词条切分,并通过概率分布函数计算参考文本中每个词条位置的词条概率分布;将所述解码结果与参考文本的词条序列对齐,并基于所述参考文本的词条序列和所述词条概率分布获取参考文本中每个词条位置上的词条被预测出的概率;根据参考文本中每个词条位置上词条的预测概率计算损失函数,并通过优化所述损失函数训练一个或多个神经网络,生成文本纠错模型。可选地,所述对音频数据进行语音识别,获取对应的语音识别文本,包括:利用语音识别模型对一个或多个音频数据进行语音识别和解码,获取解码词图和多条语音识别文本;从所述解码词图中选取若干条解码路径,根据选择的若干条解码路径去掉重复的语音识别文本;对完成去重复后的语音识别文本进行过滤,并将过滤后的语音识别文本作为最终的语音识别文本;其中,所述过滤包括以下至少之一:过滤存在未命名字词的语音识别文本、过滤字词长度短于预设长度的语音识别文本、过滤错字率高于预设阈值的语音识别文本。本专利技术还提供一种文本纠错方法,包括以下步骤:获取待处理的一个或多个语音识别文本;利用预先生成的文本纠错模型对所述待处理的一个或多个语音识别文本进行文本纠错,获取纠错后的正确文本,所述文本纠错模型由上述任一项所述的文本纠错模型生成方法生成。可选地,所述利用预先生成的文本纠错模型对待处理的一个或多个语音识别文本进行文本纠错,获取纠错后的正确文本,包括:利用文本纠错模型中的编码器对所述待处理的一个或多个语音识别文本进行编码,得到待处理的一个或多个语音识别文本的特征向量;利用解码器对待处理的一个或多个语音识别文本的特征向量进行解码,并在解码过程中获取多条候选文本序列以及每条候选文本序列对应的概率;将概率最高的候选文本序列所对应的语音识别文本作为纠错后的正确文本。本专利技术还提供一种文本纠错模型生成系统,包括有:语音识别模块,用于对音频数据进行语音识别,获取对应的语音识别文本;编码模块,用于对所述语音识别文本进行编码,获取语音识别文本的特征向量;解码模块,用于将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器进行解码,获取对应的解码结果;其中,所述参考文本是与所述一个或多个音频数据对应的正确文本;模型生成模块,用于根据所述解码结果计算损失函数,并通过优化所述损失函数训练生成文本纠错模型。可选地,所述编码模块对所述语音识别文本进行编码,获取语音识别文本的特征向量的过程包括:对获取的语音识别文本进行词条切分,获取一个或多个词条;通过目标字典将所述一个或多个词条映射为词条编号;利用词条嵌入矩阵对每个词条编号进行编码,获取对应的词条编号特征向量;以及利用位置嵌入矩阵对每个词条在所述语音识别文本中的位置序号进行编码,获取与所述词条编号特征向量相同维度的词条位置特征向量;对所述词条编号特征向量和所述词条位置特征向量进行融合,获取所述语音识别文本的特征向量;其中,所述融合包括以下至少之一:相加、相减、拼接。可选地,所述模型生成模块根据所述解码结果计算损失函数,并通过优化所述损失函数训练生成文本纠错模型的过程包括:对所述语音识别文本的特征向量进行线性变换以及对所述参考文本进行词条切分,并通过概率分布函数计算参考文本中每个词条位置的词条概率分布;将所述解码结果与参考文本的词条序列对齐,并基于参考文本的词条序列和所述词条概率分布获取参考文本中每个词条位置上的词条被预测出的概率;根据参考文本中每个词条位置上词条的预测概率计算损失函数,并通过优化所述损失函数训练一个或多个神经网络,生成文本纠错模型。本专利技术还提供一种文本纠错系统,包括有:文本采集模块,用于获取待处理的一个本文档来自技高网...

【技术保护点】
1.一种文本纠错模型生成方法,其特征在于,包括以下步骤:/n对音频数据进行语音识别,获取对应的语音识别文本;/n对所述语音识别文本进行编码,获取语音识别文本的特征向量;/n将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器进行解码,并根据解码结果计算损失函数,通过优化所述损失函数训练生成文本纠错模型;其中,所述参考文本是与所述音频数据对应的正确文本。/n

【技术特征摘要】
1.一种文本纠错模型生成方法,其特征在于,包括以下步骤:
对音频数据进行语音识别,获取对应的语音识别文本;
对所述语音识别文本进行编码,获取语音识别文本的特征向量;
将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器进行解码,并根据解码结果计算损失函数,通过优化所述损失函数训练生成文本纠错模型;其中,所述参考文本是与所述音频数据对应的正确文本。


2.根据权利要求1所述的文本纠错模型生成方法,其特征在于,所述对所述语音识别文本进行编码,获取语音识别文本的特征向量,包括:
对获取的语音识别文本进行词条切分,获取一个或多个词条;
通过目标字典将所述一个或多个词条映射为词条编号;
利用词条嵌入矩阵对每个词条编号进行编码,获取对应的词条编号特征向量;以及利用位置嵌入矩阵对每个词条在所述语音识别文本中的位置序号进行编码,获取与所述词条编号特征向量具有相同维度的词条位置特征向量;
对所述词条编号特征向量和所述词条位置特征向量进行融合,获取所述语音识别文本的特征向量;其中,所述融合包括以下至少之一:相加、相减、拼接。


3.根据权利要求2所述的文本纠错模型生成方法,其特征在于,所述将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器进行解码,并根据解码结果计算损失函数,通过优化所述损失函数训练生成文本纠错模型,包括:
将参考文本的特征向量和所述语音识别文本的特征向量输入至解码器,并利用所述解码器对所述语音识别文本的特征向量进行解码,获取解码结果;
对所述语音识别文本的特征向量进行线性变换以及对所述参考文本进行词条切分,并通过概率分布函数计算参考文本中每个词条位置的词条概率分布;
将所述解码结果与参考文本的词条序列对齐,并基于所述参考文本的词条序列和所述词条概率分布获取参考文本中每个词条位置上的词条被预测出的概率;
根据参考文本中每个词条位置上词条的预测概率计算损失函数,并通过优化所述损失函数训练一个或多个神经网络,生成文本纠错模型。


4.根据权利要求1所述的文本纠错模型生成方法,其特征在于,所述对音频数据进行语音识别,获取对应的语音识别文本,包括:
利用语音识别模型对一个或多个音频数据进行语音识别和解码,获取解码词图和多条语音识别文本;
从所述解码词图中选取若干条解码路径,根据选择的若干条解码路径去掉重复的语音识别文本;
对完成去重复后的语音识别文本进行过滤,并将过滤后的语音识别文本作为最终的语音识别文本;
其中,所述过滤包括以下至少之一:过滤存在未命名字词的语音识别文本、过滤字词长度短于预设长度的语音识别文本、过滤错字率高于预设阈值的语音识别文本。


5.一种文本纠错方法,其特征在于,包括以下步骤:
获取待处理的一个或多个语音识别文本;
利用预先生成的文本纠错模型对所述待处理的一个或多个语音识别文本进行文本纠错,获取纠错后的正确文本,所述文本纠错模型由权利要求1至4中任一项所述的文本纠错模型生成方法生成。


6.根据权利要求5所述的文本纠错方法,其特征在于,所述利用预先生成的文本纠错模型对待处理的一个或多个语音识别文本进行文本纠错,获取纠错后的正确文本,包括:
利用文本纠错模型中的编码器对所述待处理的一个或多个语音识别文本进行编码,得到待处理的一个或多个语音识别文本的特征向量;
利用解码器对待处理的一个或多个语音识别文本的特征向量进行解码,并在解码过程中获取多条候选文本序列以及每条候选...

【专利技术属性】
技术研发人员:赵云杨学锐
申请(专利权)人:上海云从汇临人工智能科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1