文本纠错方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:22532062 阅读:22 留言:0更新日期:2019-11-13 09:18
本申请涉及一种文本纠错方法、系统、计算机设备和存储介质。方法包括:获取通过语音数据转换得到的待纠正文本;通过正则表达式对待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;通过语言模型对待纠正文本中的词进行预测纠错,获取每一处语言模型预测词语的概率值;将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取预先训练好的分类模型输出的预测值;当预测值表明预先训练好的分类模型倾向于置信度时,将置信度对应的词语作为纠正后的词语;当预测值表明预先训练好的分类模型倾向于概率值时,将概率值最高的词语作为纠正后的词语,这种方式可以稳定且大幅度的提高文本纠错的准确率。

Text correction methods, devices, computer equipment and storage media

The present application relates to a text correction method, system, computer device and storage medium. The methods include: obtaining the text to be corrected by speech data conversion; correcting the words in the corrected text by regular expression, obtaining the confidence of each corrected word; predicting and correcting the words in the corrected text by language model, obtaining the probability value of each predicted word by language model; matching the confidence of the same corrected word Degree and probability value are input into the pre-trained classification model to obtain the prediction value of the output of the pre-trained classification model; when the prediction value indicates that the pre-trained classification model tends to be confident, the words corresponding to the confidence are taken as the corrected words; when the prediction value indicates that the pre-trained classification model tends to be probabilistic, the words with the highest probability value are taken as After correction, this method can improve the accuracy of text error correction.

【技术实现步骤摘要】
文本纠错方法、装置、计算机设备和存储介质
本申请涉及计算机
,特别是涉及一种文本纠错方法、装置、计算机设备和存储介质。
技术介绍
语音识别结果的纠错是语音理解过程中的一项重要工作。由于受限于语音识别的准确性,语音识别的结果常常会出现错误,这将对语音理解的后续工作造成障碍,增加了语音理解的难度。语音识别结果的纠错可以对一些识别的错误结果进行纠正,从而提高语音理解的准确性。在传统技术中,普遍采用的是n-gram纠错,但N-gram仅仅是词搭配纠错,没有利用句子内部的语义信息,更没有利用句子的上下文信息,会导致纠正的准确率较低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够提高文本纠正准确率的文本纠错方法、装置、计算机设备和存储介质。一种文本纠错方法,所述方法包括:获取通过语音数据转换得到的待纠正文本;通过正则表达式对所述待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值;将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值;当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时,将所述置信度对应的词语作为纠正后的词语;当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时,将概率值最高的词语作为纠正后的词语。一种文本纠错装置,所述装置包括:文本获取模块,用于获取通过语音数据转换得到的待纠正文本;第一纠正模块,用于通过正则表达式对所述待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;第二纠正模块,用于通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值;纠正结果确认模块,用于将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值;当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时,将所述置信度对应的词语作为纠正后的词语;当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时,将概率值最高的词语作为纠正后的词语。一种计算机设备,包括存储器、处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取通过语音数据转换得到的待纠正文本;通过正则表达式对所述待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值;将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值;当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时,将所述置信度对应的词语作为纠正后的词语;当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时,将概率值最高的词语作为纠正后的词语。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取通过语音数据转换得到的待纠正文本;通过正则表达式对所述待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值;将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值;当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时,将所述置信度对应的词语作为纠正后的词语;当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时,将概率值最高的词语作为纠正后的词语。上述文本纠错方法、装置、计算机设备和存储介质,通过获取通过语音数据转换得到的待纠正文本,通过正则表达式对待纠正文本中的词进行纠错,并获取到每一处被纠正的词语的置信度,还可以通过语言模型对待纠正文本中的词进行预测纠错,并获取到每一处语言模型预测词语的概率值,然后可以将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取到预先训练好的分类模型输出的预测值,根据预测值确定最终的纠错结果,当预测值表明预先训练好的分类模型倾向于置信度时,将置信度对应的词语作为纠正后的词语;当预测值表明预先训练好的分类模型倾向于概率值时,将概率值最高的词语作为纠正后的词语,通过分类模型将正则表达式与语言模型的纠错结果进行融合的方式,可以稳定且大幅度的提高文本纠错的准确率,在文本纠错的准确率提升的基础上,也可以有效的提升意图识别的准确率。附图说明图1为一个实施例中文本纠错方法的流程示意图;图2为一个实施例中正则表达式的流程示意图;图3为另一个实施例中步骤102的流程示意图;图4为一个实施例中文本纠错装置的结构框图;图5为一个实施例中计算机设备的内部结构图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。在一个实施例中,如图1所示,提供了一种文本纠错方法,包括以下步骤:步骤101,获取通过语音数据转换得到的待纠正文本。服务器可以从数据库中获取到客服与用户通话的语音数据,获取到的语音数据可以是实时语音数据,也可以是离线语音数据。在获取到语音数据后,可以通过语音转换接口将语音数据转换成文本,可以将需要纠正的文本称之为待纠正文本。步骤102,通过正则表达式对待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度。正则表达式中包含有多个预先编辑好的可匹配映射的字符串。在编辑正则表达式时,为了更针对性的提高纠正准确率,可以针对特定的领域对正则表达式进行编辑。比如,当企业为珍爱网时,则特定领域为婚恋领域,那么可以对正则表达式进行针对婚恋领域的容易出错的词进行编辑。如图2所示,设置纠正后映射后的词为单身,针对可以映射为单身的词,包括“大声”、“打算”、“但是”等等。因为这些词在语音表达中,发音较为相似,那么在将语音数据转换成文本时,则存在较大可能性转换错误,但这些词对于婚恋领域来说又是比较重要的信息,因此,可以针对这些重要但又容易出错的词进行设置。如此,可以尽可能的保证这些重要的词语能够被纠正,以确保用户真正要表达的含义。在一个实施例中,如图3所示,步骤102,包括:步骤301,将待纠正文本转换为拼音格式,获取待纠正文本中每一个字的拼音为第一拼音。步骤302,获取预先编辑好的正则表达式中包含的每一个目标字词的拼音为第二拼音。步骤303,获取第一拼音与第二拼音的编辑距离。步骤304,当编辑距离低于距离阈值时,将第一拼音对应的词纠正为编辑距离最短的第二拼音对应的目标字词。步骤305,获取编辑距离最短的第二拼音对应的目标字词的置信度。在通过正则表达式对待纠正文本进行纠错时,可以使用编辑距离的方式确定具体纠错的词语。具体的,在获取到待纠正文本后,可以将待纠正文本转换成拼音格式,当整个待纠正文本均从中文转换成汉语拼音后,则可以获取到待纠正文本中每一个字的拼音。为了便于描述,可以将待纠正文本中每一个字的拼音称为第一拼音。在预先编辑好的正则表达式中也包含有多个目标字词,目标字词是指在特定领域较为重要,且容易在语音数据转本文档来自技高网...

【技术保护点】
1.一种文本纠错方法,所述方法包括:获取通过语音数据转换得到的待纠正文本;通过正则表达式对所述待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值;将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值;当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时,将所述置信度对应的词语作为纠正后的词语;当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时,将概率值最高的词语作为纠正后的词语。

【技术特征摘要】
1.一种文本纠错方法,所述方法包括:获取通过语音数据转换得到的待纠正文本;通过正则表达式对所述待纠正文本中的词进行纠错,获取每一处被纠正的词语的置信度;通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值;将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好的分类模型输出的预测值;当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时,将所述置信度对应的词语作为纠正后的词语;当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时,将概率值最高的词语作为纠正后的词语。2.根据权利要求1所述的方法,其特征在于,所述通过正则表达式对所述待纠正文本中的词进行纠错,并获取每一处被纠正的词语的置信度,包括:将所述待纠正文本转换为拼音格式,获取所述待纠正文本中每一个字的拼音为第一拼音;获取预先编辑好的正则表达式中包含的每一个目标字词的拼音为第二拼音;获取所述第一拼音与第二拼音的编辑距离;当所述编辑距离低于距离阈值时,将所述第一拼音对应的词纠正为编辑距离最短的第二拼音对应的目标字词;获取所述编辑距离最短的第二拼音对应的目标字词的置信度。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取数据库中的历史语音数据,将所述历史语音数据转换为历史语音文本;通过正则表达式对所述历史语音文本中的词语进行纠错;获取所述正则表达式中每一个词语的纠正次数及纠正准确次数;将所述纠正准确次数与所述纠正次数的比值作为对应词语的置信度。4.根据权利要求1所述的方法,其特征在于,所述通过语言模型对所述待纠正文本中的词进行预测纠错,获取每一处所述语言模型预测词语的概率值,包括:将所述待纠正文本输入至语言模型中,通过所述语言模型对所述待纠正文本进行纠正;获取所述语言模型针对每一个待纠正词语输出的预测词语及每一个预测词语的概率值。5.根据权利要求4所述的方法,其特征在于,所述将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中,获取所述预先训练好...

【专利技术属性】
技术研发人员:刘凯黄佳恒贺国栋范成涛
申请(专利权)人:深圳市珍爱捷云信息技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1