文本纠错方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：22532062 阅读：22 留言：0更新日期：2019-11-13 09:18

本申请涉及一种文本纠错方法、系统、计算机设备和存储介质。方法包括：获取通过语音数据转换得到的待纠正文本；通过正则表达式对待纠正文本中的词进行纠错，获取每一处被纠正的词语的置信度；通过语言模型对待纠正文本中的词进行预测纠错，获取每一处语言模型预测词语的概率值；将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中，获取预先训练好的分类模型输出的预测值；当预测值表明预先训练好的分类模型倾向于置信度时，将置信度对应的词语作为纠正后的词语；当预测值表明预先训练好的分类模型倾向于概率值时，将概率值最高的词语作为纠正后的词语，这种方式可以稳定且大幅度的提高文本纠错的准确率。

Text correction methods, devices, computer equipment and storage media

The present application relates to a text correction method, system, computer device and storage medium. The methods include: obtaining the text to be corrected by speech data conversion; correcting the words in the corrected text by regular expression, obtaining the confidence of each corrected word; predicting and correcting the words in the corrected text by language model, obtaining the probability value of each predicted word by language model; matching the confidence of the same corrected word Degree and probability value are input into the pre-trained classification model to obtain the prediction value of the output of the pre-trained classification model; when the prediction value indicates that the pre-trained classification model tends to be confident, the words corresponding to the confidence are taken as the corrected words; when the prediction value indicates that the pre-trained classification model tends to be probabilistic, the words with the highest probability value are taken as After correction, this method can improve the accuracy of text error correction.

全部详细技术资料下载

【技术实现步骤摘要】
文本纠错方法、装置、计算机设备和存储介质
本申请涉及计算机
，特别是涉及一种文本纠错方法、装置、计算机设备和存储介质。
技术介绍
语音识别结果的纠错是语音理解过程中的一项重要工作。由于受限于语音识别的准确性，语音识别的结果常常会出现错误，这将对语音理解的后续工作造成障碍，增加了语音理解的难度。语音识别结果的纠错可以对一些识别的错误结果进行纠正，从而提高语音理解的准确性。在传统技术中，普遍采用的是n-gram纠错，但N-gram仅仅是词搭配纠错，没有利用句子内部的语义信息，更没有利用句子的上下文信息，会导致纠正的准确率较低。
技术实现思路
基于此，有必要针对上述技术问题，提供一种能够提高文本纠正准确率的文本纠错方法、装置、计算机设备和存储介质。一种文本纠错方法，所述方法包括：获取通过语音数据转换得到的待纠正文本；通过正则表达式对所述待纠正文本中的词进行纠错，获取每一处被纠正的词语的置信度；通过语言模型对所述待纠正文本中的词进行预测纠错，获取每一处所述语言模型预测词语的概率值；将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中，获取所述预先训练好的分类模型输出的预测值；当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时，将所述置信度对应的词语作为纠正后的词语；当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时，将概率值最高的词语作为纠正后的词语。一种文本纠错装置，所述装置包括：文本获取模块，用于获取通过语音数据转换得到的待纠正文本；第一纠正模块，用于通过正则表达式对所述待纠正文本中的词进行纠错，获取每一处被纠正的词语的置信度...

【技术保护点】
1.一种文本纠错方法，所述方法包括：获取通过语音数据转换得到的待纠正文本；通过正则表达式对所述待纠正文本中的词进行纠错，获取每一处被纠正的词语的置信度；通过语言模型对所述待纠正文本中的词进行预测纠错，获取每一处所述语言模型预测词语的概率值；将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中，获取所述预先训练好的分类模型输出的预测值；当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时，将所述置信度对应的词语作为纠正后的词语；当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时，将概率值最高的词语作为纠正后的词语。

【技术特征摘要】
1.一种文本纠错方法，所述方法包括：获取通过语音数据转换得到的待纠正文本；通过正则表达式对所述待纠正文本中的词进行纠错，获取每一处被纠正的词语的置信度；通过语言模型对所述待纠正文本中的词进行预测纠错，获取每一处所述语言模型预测词语的概率值；将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中，获取所述预先训练好的分类模型输出的预测值；当所述预测值表明所述预先训练好的分类模型倾向于所述置信度时，将所述置信度对应的词语作为纠正后的词语；当所述预测值表明所述预先训练好的分类模型倾向于所述概率值时，将概率值最高的词语作为纠正后的词语。2.根据权利要求1所述的方法，其特征在于，所述通过正则表达式对所述待纠正文本中的词进行纠错，并获取每一处被纠正的词语的置信度，包括：将所述待纠正文本转换为拼音格式，获取所述待纠正文本中每一个字的拼音为第一拼音；获取预先编辑好的正则表达式中包含的每一个目标字词的拼音为第二拼音；获取所述第一拼音与第二拼音的编辑距离；当所述编辑距离低于距离阈值时，将所述第一拼音对应的词纠正为编辑距离最短的第二拼音对应的目标字词；获取所述编辑距离最短的第二拼音对应的目标字词的置信度。3.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取数据库中的历史语音数据，将所述历史语音数据转换为历史语音文本；通过正则表达式对所述历史语音文本中的词语进行纠错；获取所述正则表达式中每一个词语的纠正次数及纠正准确次数；将所述纠正准确次数与所述纠正次数的比值作为对应词语的置信度。4.根据权利要求1所述的方法，其特征在于，所述通过语言模型对所述待纠正文本中的词进行预测纠错，获取每一处所述语言模型预测词语的概率值，包括：将所述待纠正文本输入至语言模型中，通过所述语言模型对所述待纠正文本进行纠正；获取所述语言模型针对每一个待纠正词语输出的预测词语及每一个预测词语的概率值。5.根据权利要求4所述的方法，其特征在于，所述将同一处被纠正的词语对应的置信度与概率值输入至预先训练好的分类模型中，获取所述预先训练好...

【专利技术属性】
技术研发人员：刘凯，黄佳恒，贺国栋，范成涛，
申请(专利权)人：深圳市珍爱捷云信息技术有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人