基于BERT的语音识别后文本修正方法、装置、终端及介质制造方法及图纸

技术编号：24576437 阅读：73 留言：0更新日期：2020-06-21 00:26

本发明专利技术提供基于BERT的语音识别后文本修正方法、装置、终端及介质，其包括：采用预设尺寸的滑动窗口来提取文本字串，并对所提取的文本字串的中间字进行修正；将修正后的文本字串输入预训练的BERT网络模型中，并通过BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度；采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。本发明专利技术通过使用拼音和噪声拼音作为输入的一部分，提升模型对于语音识别模型识别错误问题的鲁棒性，对于垂直领域也有很好的识别效果；基于BERT模型可以处理比传统的N‑gram算法或RNN类深度网络更长的序列预测任务，能处理最大序列长度为128的句子，虽然模型参数较多，但基于BERT模型的可并行能力，模型的推理效率极高。

Text correction method, device, terminal and medium after speech recognition based on Bert

全部详细技术资料下载

【技术实现步骤摘要】
基于BERT的语音识别后文本修正方法、装置、终端及介质
本专利技术涉及文本修正
，特别是涉及基于BERT的语音识别后文本修正方法、装置、终端及介质。
技术介绍
目前的语音识别算法能够帮助我们自动识别语音，并记录成文字，但语音识别的结果不一定完全正确，特别是在一些垂直领域，市面上的语音识别产品往往难以识别特定的专业词汇，此时就需要进行语音识别后的文本修正工作。当前，有基于错误规则的文本纠错算法，也有基于深度学习的算法，同时在垂直领域，也有基于特殊领域数据库建立索引和提供候选的方法。其中，基于规则和特殊领域数据库的方法面临规则不全和纠错率不高的问题，而基于深度学习的方法则主要基于LSTM网络，训练耗时的同时，也难以捕捉较长序列的语义特征。因此，本领域亟需一种规则齐全、纠错率高且能够提升语音识别后文本修正任务的准确率的技术解决方案。申请内容鉴于以上所述现有技术的缺点，本专利技术的目的在于提供基于BERT的语音识别后文本修正方法、装置、终端及介质，用于解决现有技术中的文本修正方法尚存在规则不齐全、纠错率低、准确率低等问题。为实现上述目的及其他相关目的，本专利技术的第一方面提供一种基于BERT的语音识别后文本修正方法，其包括：采用预设尺寸的滑动窗口来提取文本字串，并对所提取的文本字串的中间字进行修正；将修正后的文本字串输入预训练的BERT网络模型中，并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度；采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字...

【技术保护点】
1.一种基于BERT的语音识别后文本修正方法，其特征在于，包括：/n采用预设尺寸的滑动窗口来提取文本字串，并对所提取的文本字串的中间字进行修正；/n将修正后的文本字串输入预训练的BERT网络模型中，并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度；/n采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。/n

【技术特征摘要】
1.一种基于BERT的语音识别后文本修正方法，其特征在于，包括：
采用预设尺寸的滑动窗口来提取文本字串，并对所提取的文本字串的中间字进行修正；
将修正后的文本字串输入预训练的BERT网络模型中，并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度；
采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。

2.根据权利要求1所述的方法，其特征在于，所述采用预设尺寸的滑动窗口来提取文本字串，其包括：
采用长度为奇数个字的滑动窗口来提取文本字串，以提取由前偶数个字、中间字以及后偶数个字组成的文本字串。

3.根据权利要求2所述的方法，其特征在于，所述方法包括：
在所述滑动窗口提取的字数不满足字数要求的情况下，采用指定字符来填充窗口中的空缺位置。

4.根据权利要求1所述的方法，其特征在于，所述对所提取的文本字串的中间字进行修正，其包括：
采用所述文本字串的中间字所对应的拼音来替换该中间字。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：
对该中间字所对应的拼音进行噪声扰动；其中，噪声扰动的方式包括如下任意一种或多种方式的组合：
方式1)随机去除或增加前后鼻音；
方式2)获取容易混淆的声母、韵母和近音字字典，并对中间字所对应的拼音进行随机替换；
方式3)随机替换当前拼音为任意一种拼音。

6.根据权利要求1所述的方法，其特征在于，所述将修正后的文本字串输入预训练的BERT网络模型中，其包括：
将文本字串...

【专利技术属性】
技术研发人员：周康明，杨光，
申请(专利权)人：上海眼控科技股份有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人