文字拼写错误的修正方法、系统、计算机设备及存储介质技术方案

技术编号:19009120 阅读:127 留言:0更新日期:2018-09-22 08:59
本发明专利技术涉及一种文字拼写错误的修正方法、系统、计算机设备及存储介质所述修正方法包括:获取待修正语句的各个位置上拼写错误的文字,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集;其中,所述混淆字集为所述文字拼写相近的多个文字的集合;分别对各个位置上的候选字集进行笛卡尔积,得到多组候选句子;将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值;根据所述概率运算值选择候选句子修正所述待修正语句。本发明专利技术的技术方案实现了对文本输入中的拼写错误准确、高效的修正。

Correction method, system, computer equipment and storage medium for spelling errors

The invention relates to a method, system, computer equipment and storage medium for correcting a character spelling error. The correcting method includes: acquiring the text at each position of the sentence to be corrected, selecting the confused word from the confused word set of the words to be corrected, and forming a candidate word set for the corresponding position. The confused word set is a set of words with similar spelling, Cartesian product is applied to the candidate word set at each position to obtain a plurality of candidate sentences, and the candidate sentences are input into the pre-trained spelling error correction model detection to detect and calculate the probability operation value of the candidate sentences. A candidate sentence is selected according to the probability operation value to modify the said modified statement. The technical proposal of the invention realizes accurate and efficient correction of spelling errors in text input.

【技术实现步骤摘要】
文字拼写错误的修正方法、系统、计算机设备及存储介质
本专利技术涉及计算机软件
,特别是涉及一种文字拼写错误的修正方法、系统、计算机设备及存储介质。
技术介绍
随着计算机软件技术的不断发展,对于文本信息的检索、抽取、翻译等技术逐渐成熟,然而对于文本的校对还没有准确高效的方法。对于文本中错别字的修正是文本校对的核心环节,文本中的错字严重影响了文本的质量,例如,新闻稿件对错别字的要求十分严格,如果没有对稿件中的错别字进行及时的纠正,可能会向读者传递错误信息,所以对于文本中错字的修正具有重要意义。传统输入错误的修正方法主要采用基于统计的方法,此方法需要根据上下文中的字、词等的特征,建立统计语言模型,此方法依赖统计语言模型,在建立统计语言模型的过程中,统计数据稀疏问题会严重影响其修正的效率和精度,难以对文本输入中的拼写错误进行准确、高效的修正。
技术实现思路
基于此,有必要针对上述难以对文本输入中的拼写错误进行准确、高效的修正的问题,提供一种文字拼写错误的修正方法、系统、计算机设备及存储介质。一种文字拼写错误的修正方法,包括以下步骤:获取待修正语句的各个位置上拼写错误的文字,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集;其中,所述混淆字集为所述文字拼写相近的多个文字的集合;分别对各个位置上的候选字集进行笛卡尔积,得到多组候选句子;将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值;根据所述概率运算值选择候选句子修正所述待修正语句。上述文字拼写错误的修正方法,通过获取的待修正语句的各个位置上拼写错误的文字从混淆字集中选择混淆字,组成对应位置的候选字集;然后对各个位置上的候选字集进行笛卡尔积,得到多组候选句子输入预先训练的拼写错误修正模型检测进行检测并计算概率运算值;再根据概率运算值选择候选句子修正待修正语句。该技术方案实现了对文本输入中的拼写错误准确、高效的修正。在一个实施例中,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集的步骤包括:获取所述拼写错误的文字在混淆字集中出现概率最大的K个混淆字,组成对应位置的候选字集;其中,K≥2,所述出现概率为拼写错误的文字所对应的混淆字集中各个候选字在当前位置上的出现概率;根据所述概率运算值选择候选句子修正所述待修正语句的步骤包括:将所述概率运算值最大的候选句子替换所述待修正语句。在一个实施例中,所述的文字拼写错误的修正方法还包括:利用所述拼写错误修正模型检测待修正语句中各个文字及其对应的混淆字集中各个候选字在当前位置上的出现概率;根据所述出现概率识别待修正语句中拼写错误的文字。在一个实施例中,所述利用预先训练的拼写错误修正模型检测待修正语句中各个文字及其对应的混淆字集中各个候选字在当前位置上的出现概率的步骤包括:将待修正语句中的文字输入所述拼写错误修正模型进行检测,得到该文字的下一个位置上各个文字的概率向量,从各个文字的概率向量中获取下一个文字的出现概率;获取所述文字的混淆字集,利用所述拼写错误修正模型检测所述文字的混淆字集中各个候选字在当前位置上的出现概率。在一个实施例中,所述根据所述出现概率识别待修正语句中拼写错误的文字的步骤包括:若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则如果该文字在其相应的混淆集中的出现概率最大,判定该文字没有拼写错误,否则判定该文字拼写错误。在一个实施例中,所述将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值的步骤包括:将所述候选句子分别输入预先训练的拼写错误修正模型检测各个位置的文字的出现概率;分别将各个位置的文字的出现概率进行相加或相乘,得到所述候选句子的概率运算值。在一个实施例中,所述的文字拼写错误的修正方法还包括:利用自然语言的语料数据并建立拼写错误检测的训练模型;对所述语料数据进行预处理得到训练语料句子;利用所述训练语料句子对所述训练模型进行训练,得到所述拼写错误检测模型。在一个实施例中,所述对所述语料数据进行预处理得到训练语料句子的步骤包括:将所述训练模型中的语料数据中的冗余内容进行删除,以及将非文字的数据用字母进行替换;以文字和所述字母为单位对语料数据中的句子进行分割,并在句子开头和结尾添加句子开头标记和句子结尾标记,生成训练语料句子。在一个实施例中,基于循环神经网络技术建立单向的拼写错误检测的训练模型;通过前向输入的训练语料句子对所述训练模型进行训练,得到单向的拼写错误检测模型。在一个实施例中,基于长短期记忆神经网络以及自然语言语料数据建立双向的拼写错误检测的训练模型;通过前向输入和后向输入的训练语料句子对所述训练模型进行训练,得到双向的拼写错误检测模型。在一个实施例中,所述混淆字集以键-值对应的方式存储在文件中;其中,键为汉字的拼音,值为发此拼音的文字集合。一种文字拼写错误的修正系统,包括:选择模块,用于获取待修正语句的各个位置上拼写错误的文字,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集;其中,所述混淆字集为所述文字拼写相近的多个文字的集合;作积模块,用于分别对各个位置上的候选字集进行笛卡尔积,得到多组候选句子;计算模块,用于将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值;修正模块,用于根据所述概率运算值选择候选句子修正所述待修正语句。上述文字拼写错误的修正系统,通过获取的待修正语句的各个位置上拼写错误的文字从混淆字集中选择混淆字,组成对应位置的候选字集;然后对各个位置上的候选字集进行笛卡尔积,得到多组候选句子输入预先训练的拼写错误修正模型检测进行检测并计算概率运算值;再根据概率运算值选择候选句子修正待修正语句。该技术方案实现了对文本输入中的拼写错误准确、高效的修正。一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的文字拼写错误的修正方法。上述计算机设备,通过所述处理器上运行的计算机程序,实现了对文本输入中的拼写错误准确、高效的修正。一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的文字拼写错误的修正方法。上述计算机存储介质,通过其存储的计算机程序,实现了对文本输入中的拼写错误准确、高效的修正。附图说明图1是一个实施例的文字拼写错误的修正方法流程图;图2是另一个实施例的文字拼写错误的修正方法流程图;图3是一个实施例的训练拼写错误检测模型的流程图;图4是单向的训练模型示意图;图5是单向的训练模型的预测结果的示意图;图6是双向的训练模型示意图;图7是双向的训练模型的预测结果的示意图;图8是计算概率运算值流程图;图9是一个实施例的文字拼写错误的修正系统结构示意图;图10是另一个实施例的文字拼写错误的修正系统结构示意图;图11为一个实施例中计算机设备的内部结构示意图。具体实施方式为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述。附图中给出了本专利技术的首选实施例。但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这本文档来自技高网...
文字拼写错误的修正方法、系统、计算机设备及存储介质

【技术保护点】
1.一种文字拼写错误的修正方法,其特征在于,包括以下步骤:获取待修正语句的各个位置上拼写错误的文字,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集;其中,所述混淆字集为所述文字拼写相近的多个文字的集合;分别对各个位置上的候选字集进行笛卡尔积,得到多组候选句子;将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值;根据所述概率运算值选择候选句子修正所述待修正语句。

【技术特征摘要】
1.一种文字拼写错误的修正方法,其特征在于,包括以下步骤:获取待修正语句的各个位置上拼写错误的文字,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集;其中,所述混淆字集为所述文字拼写相近的多个文字的集合;分别对各个位置上的候选字集进行笛卡尔积,得到多组候选句子;将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值;根据所述概率运算值选择候选句子修正所述待修正语句。2.根据权利要求1所述的文字拼写错误的修正方法,其特征在于,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集的步骤包括:获取所述拼写错误的文字在混淆字集中出现概率最大的K个混淆字,组成对应位置的候选字集;其中,K≥2,所述出现概率为拼写错误的文字所对应的混淆字集中各个候选字在当前位置上的出现概率;根据所述概率运算值选择候选句子修正所述待修正语句的步骤包括:将所述概率运算值最大的候选句子替换所述待修正语句。3.根据权利要求2所述的文字拼写错误的修正方法,其特征在于,还包括:利用所述拼写错误修正模型检测待修正语句中各个文字及其对应的混淆字集中各个候选字在当前位置上的出现概率;根据所述出现概率识别待修正语句中拼写错误的文字。4.根据权利要求3所述的文字拼写错误的修正方法,其特征在于,所述利用预先训练的拼写错误修正模型检测待修正语句中各个文字及其对应的混淆字集中各个候选字在当前位置上的出现概率的步骤包括:将待修正语句中的文字输入所述拼写错误修正模型进行检测,得到该文字的下一个位置上各个文字的概率向量,从各个文字的概率向量中获取下一个文字的出现概率;获取所述文字的混淆字集,利用所述拼写错误修正模型检测所述文字的混淆字集中各个候选字在当前位置上的出现概率。5.根据权利要求3所述的文字拼写错误的修正方法,其特征在于,所述根据所述出现概率识别待修正语句中拼写错误的文字的步骤包括:若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则如果该文字在其相应的混淆集中的出现概率最大,判定该文字没有拼写错误,否则判定该文字拼写错误。6.根据权利要求1所述的文字拼写错误的修正方法,其特征在于,所述将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值的步骤包括:将所述候选句子分别输入预先训练的拼写错误...

【专利技术属性】
技术研发人员:王鹏
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1