The invention relates to a method, system, computer equipment and storage medium for correcting a character spelling error. The correcting method includes: acquiring the text at each position of the sentence to be corrected, selecting the confused word from the confused word set of the words to be corrected, and forming a candidate word set for the corresponding position. The confused word set is a set of words with similar spelling, Cartesian product is applied to the candidate word set at each position to obtain a plurality of candidate sentences, and the candidate sentences are input into the pre-trained spelling error correction model detection to detect and calculate the probability operation value of the candidate sentences. A candidate sentence is selected according to the probability operation value to modify the said modified statement. The technical proposal of the invention realizes accurate and efficient correction of spelling errors in text input.
【技术实现步骤摘要】
文字拼写错误的修正方法、系统、计算机设备及存储介质
本专利技术涉及计算机软件
,特别是涉及一种文字拼写错误的修正方法、系统、计算机设备及存储介质。
技术介绍
随着计算机软件技术的不断发展,对于文本信息的检索、抽取、翻译等技术逐渐成熟,然而对于文本的校对还没有准确高效的方法。对于文本中错别字的修正是文本校对的核心环节,文本中的错字严重影响了文本的质量,例如,新闻稿件对错别字的要求十分严格,如果没有对稿件中的错别字进行及时的纠正,可能会向读者传递错误信息,所以对于文本中错字的修正具有重要意义。传统输入错误的修正方法主要采用基于统计的方法,此方法需要根据上下文中的字、词等的特征,建立统计语言模型,此方法依赖统计语言模型,在建立统计语言模型的过程中,统计数据稀疏问题会严重影响其修正的效率和精度,难以对文本输入中的拼写错误进行准确、高效的修正。
技术实现思路
基于此,有必要针对上述难以对文本输入中的拼写错误进行准确、高效的修正的问题,提供一种文字拼写错误的修正方法、系统、计算机设备及存储介质。一种文字拼写错误的修正方法,包括以下步骤:获取待修正语句的各个位置上拼写错误的文字,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集;其中,所述混淆字集为所述文字拼写相近的多个文字的集合;分别对各个位置上的候选字集进行笛卡尔积,得到多组候选句子;将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值;根据所述概率运算值选择候选句子修正所述待修正语句。上述文字拼写错误的修正方法,通过获取的待修正语句的各个位置上拼写错误的文字 ...
【技术保护点】
1.一种文字拼写错误的修正方法,其特征在于,包括以下步骤:获取待修正语句的各个位置上拼写错误的文字,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集;其中,所述混淆字集为所述文字拼写相近的多个文字的集合;分别对各个位置上的候选字集进行笛卡尔积,得到多组候选句子;将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值;根据所述概率运算值选择候选句子修正所述待修正语句。
【技术特征摘要】
1.一种文字拼写错误的修正方法,其特征在于,包括以下步骤:获取待修正语句的各个位置上拼写错误的文字,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集;其中,所述混淆字集为所述文字拼写相近的多个文字的集合;分别对各个位置上的候选字集进行笛卡尔积,得到多组候选句子;将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值;根据所述概率运算值选择候选句子修正所述待修正语句。2.根据权利要求1所述的文字拼写错误的修正方法,其特征在于,从所述拼写错误的文字的混淆字集中选择混淆字,组成对应位置的候选字集的步骤包括:获取所述拼写错误的文字在混淆字集中出现概率最大的K个混淆字,组成对应位置的候选字集;其中,K≥2,所述出现概率为拼写错误的文字所对应的混淆字集中各个候选字在当前位置上的出现概率;根据所述概率运算值选择候选句子修正所述待修正语句的步骤包括:将所述概率运算值最大的候选句子替换所述待修正语句。3.根据权利要求2所述的文字拼写错误的修正方法,其特征在于,还包括:利用所述拼写错误修正模型检测待修正语句中各个文字及其对应的混淆字集中各个候选字在当前位置上的出现概率;根据所述出现概率识别待修正语句中拼写错误的文字。4.根据权利要求3所述的文字拼写错误的修正方法,其特征在于,所述利用预先训练的拼写错误修正模型检测待修正语句中各个文字及其对应的混淆字集中各个候选字在当前位置上的出现概率的步骤包括:将待修正语句中的文字输入所述拼写错误修正模型进行检测,得到该文字的下一个位置上各个文字的概率向量,从各个文字的概率向量中获取下一个文字的出现概率;获取所述文字的混淆字集,利用所述拼写错误修正模型检测所述文字的混淆字集中各个候选字在当前位置上的出现概率。5.根据权利要求3所述的文字拼写错误的修正方法,其特征在于,所述根据所述出现概率识别待修正语句中拼写错误的文字的步骤包括:若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则如果该文字在其相应的混淆集中的出现概率最大,判定该文字没有拼写错误,否则判定该文字拼写错误。6.根据权利要求1所述的文字拼写错误的修正方法,其特征在于,所述将所述候选句子分别输入预先训练的拼写错误修正模型检测进行检测并计算所述候选句子的概率运算值的步骤包括:将所述候选句子分别输入预先训练的拼写错误...
【专利技术属性】
技术研发人员:王鹏,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。