基于BERT的语音识别后文本修正方法、装置、终端及介质制造方法及图纸

技术编号:24576437 阅读:65 留言:0更新日期:2020-06-21 00:26
本发明专利技术提供基于BERT的语音识别后文本修正方法、装置、终端及介质,其包括:采用预设尺寸的滑动窗口来提取文本字串,并对所提取的文本字串的中间字进行修正;将修正后的文本字串输入预训练的BERT网络模型中,并通过BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度;采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。本发明专利技术通过使用拼音和噪声拼音作为输入的一部分,提升模型对于语音识别模型识别错误问题的鲁棒性,对于垂直领域也有很好的识别效果;基于BERT模型可以处理比传统的N‑gram算法或RNN类深度网络更长的序列预测任务,能处理最大序列长度为128的句子,虽然模型参数较多,但基于BERT模型的可并行能力,模型的推理效率极高。

Text correction method, device, terminal and medium after speech recognition based on Bert

【技术实现步骤摘要】
基于BERT的语音识别后文本修正方法、装置、终端及介质
本专利技术涉及文本修正
,特别是涉及基于BERT的语音识别后文本修正方法、装置、终端及介质。
技术介绍
目前的语音识别算法能够帮助我们自动识别语音,并记录成文字,但语音识别的结果不一定完全正确,特别是在一些垂直领域,市面上的语音识别产品往往难以识别特定的专业词汇,此时就需要进行语音识别后的文本修正工作。当前,有基于错误规则的文本纠错算法,也有基于深度学习的算法,同时在垂直领域,也有基于特殊领域数据库建立索引和提供候选的方法。其中,基于规则和特殊领域数据库的方法面临规则不全和纠错率不高的问题,而基于深度学习的方法则主要基于LSTM网络,训练耗时的同时,也难以捕捉较长序列的语义特征。因此,本领域亟需一种规则齐全、纠错率高且能够提升语音识别后文本修正任务的准确率的技术解决方案。申请内容鉴于以上所述现有技术的缺点,本专利技术的目的在于提供基于BERT的语音识别后文本修正方法、装置、终端及介质,用于解决现有技术中的文本修正方法尚存在规则不齐全、纠错率低、准确率低等问题。为实现上述目的及其他相关目的,本专利技术的第一方面提供一种基于BERT的语音识别后文本修正方法,其包括:采用预设尺寸的滑动窗口来提取文本字串,并对所提取的文本字串的中间字进行修正;将修正后的文本字串输入预训练的BERT网络模型中,并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度;采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。于本专利技术的第一方面的一些实施例中,所述采用预设尺寸的滑动窗口来提取文本字串,其包括:采用长度为奇数个字的滑动窗口来提取文本字串,以提取由前偶数个字、中间字以及后偶数个字组成的文本字串。于本专利技术的第一方面的一些实施例中,所述方法包括:在所述滑动窗口提取的字数不满足字数要求的情况下,采用指定字符来填充窗口中的空缺位置。于本专利技术的第一方面的一些实施例中,所述对所提取的文本字串的中间字进行修正,其包括:采用所述文本字串的中间字所对应的拼音来替换该中间字。于本专利技术的第一方面的一些实施例中,所述方法还包括:对该中间字所对应的拼音进行噪声扰动;其中,噪声扰动的方式包括如下任意一种或多种方式的组合:方式1)随机去除或增加前后鼻音;方式2)获取容易混淆的声母、韵母和近音字字典,并对中间字所对应的拼音进行随机替换;方式3)随机替换当前拼音为任意一种拼音。于本专利技术的第一方面的一些实施例中,所述将修正后的文本字串输入预训练的BERT网络模型中,其包括:将文本字串中的各字从以token为最小单元的独热编码向量转换成嵌入向量后输入BERT网络模型中;对文本字串中的各字标记其所属的句子类型后输入至BERT网络模型中;对文本字串中的各字进行位置信息弥补后,将每个字所对应的位置信息输入至BERT网络模型中。于本专利技术的第一方面的一些实施例中,所述方法还包括:当所述滑动窗口滑动至非首字串的当前文本字串时,使用上个窗口位置输出的预测置信度降序序列中的前若干个预测置信度所对应的预测字,来分别预测当前文本字串的中间字,并选取其中预测置信度最高的中间字来作为作为当前文本字串的中间字。为实现上述目的及其他相关目的,本专利技术的第二方面提供一种基于BERT的语音识别后文本修正装置,其包括:滑窗模块,用于采用预设尺寸的滑动窗口来提取文本字串,并对所提取的文本字串的中间字进行修正;BERT模型模块,用于将修正后的文本字串输入预训练的BERT网络模型中,并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度;修正模块,用于采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。为实现上述目的及其他相关目的,本专利技术的第三方面提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于BERT的语音识别后文本修正方法。为实现上述目的及其他相关目的,本专利技术的第四方面提供一种电子终端,包括:处理器及存储器;所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述终端执行所述基于BERT的语音识别后文本修正方法。如上所述,本专利技术的基于BERT的语音识别后文本修正方法、装置、终端及介质,具有以下有益效果:本专利技术巧妙地将文本后修正任务基于BERT模型进行了微调,借助Transformer自注意力机制强大的语义特征提取能力,使文本后修正过程可以获得更强上下文信息,从而改进了文本后处理效果;本专利技术通过使用拼音和噪声拼音作为输入的一部分,提升了模型对于语音识别模型识别错误问题的鲁棒性,对于垂直领域也有非常不错的识别效果;本专利技术基于BERT模型可以处理比传统的N-gram算法或RNN类深度网络更长的序列预测任务,本专利技术因此可以处理最大序列长度为128的句子,且虽然模型参数较多,但基于BERT模型的可并行能力,模型的推理效率非常高。附图说明图1显示为本专利技术一实施例中基于BERT的语音识别后文本修正方法的流程示意图。图2显示为本专利技术一实施例中BERT网络模型的结构示意图。图3显示为本专利技术一实施例中输入BERT网络模型的数据转换示意图。图4显示为本专利技术一实施例中基于BERT的语音识别后文本修正装置的结构示意图。图5显示为本专利技术一实施例中电子终端的结构示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。需要说明的是,在下述描述中,参考附图,附图描述了本专利技术的若干实施例。应当理解,如同在本文中所使用的,单数形式“一”、“一个”和“该”旨在也包括复数形式,除非上下文中有相反的指示。应当进一步理解,术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组,但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的,或意味着任一个或任何组合。因此,“A、B或C”或者“A、B和/或C”意味着“以下任一个:A;B;C;A和B;A和C;B和C;A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时,才会出现该定义的例外。现有的语音识别文本后的修正方法虽能完成一定的修正工作,但都有不足之处。例如,基于错误规则的文本纠错算法尚存规则不全和纠错率不高的问题;基于深度学习的算法主要基于LSTM网络,模型训练非常耗时而且也难以捕捉较长序列的语义特征;而在垂直领域,也采用基于特殊领域数据库建立索引和提供候选的方法,但这种方法也存在规则不全和纠错率不高的问题。有鉴于此,本专利技术提出一种基于BER本文档来自技高网...

【技术保护点】
1.一种基于BERT的语音识别后文本修正方法,其特征在于,包括:/n采用预设尺寸的滑动窗口来提取文本字串,并对所提取的文本字串的中间字进行修正;/n将修正后的文本字串输入预训练的BERT网络模型中,并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度;/n采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。/n

【技术特征摘要】
1.一种基于BERT的语音识别后文本修正方法,其特征在于,包括:
采用预设尺寸的滑动窗口来提取文本字串,并对所提取的文本字串的中间字进行修正;
将修正后的文本字串输入预训练的BERT网络模型中,并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度;
采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。


2.根据权利要求1所述的方法,其特征在于,所述采用预设尺寸的滑动窗口来提取文本字串,其包括:
采用长度为奇数个字的滑动窗口来提取文本字串,以提取由前偶数个字、中间字以及后偶数个字组成的文本字串。


3.根据权利要求2所述的方法,其特征在于,所述方法包括:
在所述滑动窗口提取的字数不满足字数要求的情况下,采用指定字符来填充窗口中的空缺位置。


4.根据权利要求1所述的方法,其特征在于,所述对所提取的文本字串的中间字进行修正,其包括:
采用所述文本字串的中间字所对应的拼音来替换该中间字。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
对该中间字所对应的拼音进行噪声扰动;其中,噪声扰动的方式包括如下任意一种或多种方式的组合:
方式1)随机去除或增加前后鼻音;
方式2)获取容易混淆的声母、韵母和近音字字典,并对中间字所对应的拼音进行随机替换;
方式3)随机替换当前拼音为任意一种拼音。


6.根据权利要求1所述的方法,其特征在于,所述将修正后的文本字串输入预训练的BERT网络模型中,其包括:
将文本字串...

【专利技术属性】
技术研发人员:周康明杨光
申请(专利权)人:上海眼控科技股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1