文字拼写的检测方法、系统、计算机设备及存储介质技术方案

技术编号:18913390 阅读:30 留言:0更新日期:2018-09-12 02:54
本发明专利技术涉及一种文字拼写的检测方法、系统、计算机设备及存储介质,所述方法包括:利用预先训练的拼写错误修正模型检测待识别语句中各个文字及其对应的混淆字集中各个混淆字在当前位置上的出现概率;若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则根据该文字在其相应的混淆集中的出现概率的排序判断是否拼写错误。本发明专利技术的技术,利用预先训练的拼写错误修正模型检测文字及其对应的混淆字集中混淆字在当前位置上的出现概率,结合相应的概率阈值以及混淆字集中混淆字的出现概率来判断该文字是否错误,实现了对文本输入中的拼写进行准确、高效的检测。

Text spelling detection method, system, computer equipment and storage medium

The present invention relates to a method for spelling detection, a system, a computer device and a storage medium. The method includes: detecting the occurrence probability of confused words in each character and its corresponding confused word set in a sentence to be recognized by using a pre-trained spelling error correction model; and detecting the occurrence probability of confused words in the current position if the current character appears; If the occurrence probability is greater than the first probability threshold, it is determined that there is no spelling error; if the occurrence probability of the current text is less than the first probability threshold and greater than the second probability threshold, the spelling error can be judged according to the order of occurrence probability of the text in its corresponding confusion set. The technique of the invention detects the occurrence probability of a word and its corresponding confused words in the current position by using a pre-trained spelling error correction model, and determines whether the word is wrong by combining the corresponding probability threshold and the occurrence probability of the confused words in the confused words set, thus realizing the spelling input in the text input. Accurate and efficient detection.

【技术实现步骤摘要】
文字拼写的检测方法、系统、计算机设备及存储介质
本专利技术涉及计算机软件
,特别是涉及一种文字拼写的检测方法、系统、计算机设备及存储介质。
技术介绍
随着计算机软件技术的不断发展,对于文本信息的检索、抽取、翻译等技术逐渐成熟,然而对于文本的校对还没有准确高效的方法。对于文本中错别字的识别是文本校对的核心环节,文本中的错字严重影响了文本的质量,例如,新闻稿件对错别字的要求十分严格,如果没有对稿件中的错别字进行及时的识别和纠正,可能会向读者传递错误信息,所以对于文本中错字的识别具有重要意义。传统输入错误的识别方法主要采用基于统计的方法,此方法需要根据上下文中的字、词等的特征,建立统计语言模型,此方法依赖统计语言模型,在建立统计语言模型的过程中,统计数据稀疏问题会严重影响其识别的效率和精度,难以对文本输入中的拼写是否准确进行准确、高效的检测。
技术实现思路
基于此,有必要针对上述难以对文本输入中的拼写错误进行准确、高效的修正的问题,提供一种文字拼写的检测方法、系统、计算机设备及存储介质。一种文字拼写的检测方法,包括以下步骤:利用预先训练的拼写错误修正模型检测待识别语句中各个文字及其对应的混淆字集中各个混淆字在当前位置上的出现概率;若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则根据该文字在其相应的混淆集中的出现概率的排序判断是否拼写错误。上述文字拼写的检测方法,利用预先训练的拼写错误修正模型检测文字及其对应的混淆字集中混淆字在当前位置上的出现概率,结合相应的概率阈值以及混淆字集中混淆字的出现概率来判断该文字是否错误,实现了对文本输入中的拼写进行准确、高效的检测。在一个实施例中,所述根据该文字在其相应的混淆集中的出现概率的排序判断是否拼写错误的步骤包括:如果该文字在其相应的混淆集中的出现概率最大,判定该文字没有拼写错误,否则判定该文字拼写错误。在一个实施例中,所述利用预先训练的拼写错误修正模型检测待识别语句中各个文字及其对应的混淆字集中各个混淆字在当前位置上的出现概率的步骤包括:将待识别语句中的文字输入所述拼写错误修正模型进行检测,得到该文字的下一个位置上各个文字的概率向量,从各个文字的概率向量中获取下一个文字的出现概率;获取所述文字的混淆字集,利用所述拼写错误修正模型检测所述文字的混淆字集中各个混淆字在当前位置上的出现概率;其中,所述混淆字集为所述文字拼写相近的多个文字的集合。在一个实施例中,所述的文字拼写的检测方法还包括:利用自然语言的语料数据并建立拼写错误检测的训练模型;对所述语料数据进行预处理得到训练语料句子;利用所述训练语料句子对所述训练模型进行训练,得到所述拼写错误检测模型。在一个实施例中,所述对所述语料数据进行预处理得到训练语料句子的步骤包括:将所述训练模型中的语料数据中的冗余内容进行删除,以及将非文字的数据用字母进行替换;以文字和所述字母为单位对语料数据中的句子进行分割,并在句子开头和结尾添加句子开头标记和句子结尾标记,生成训练语料句子。在一个实施例中,基于循环神经网络技术建立单向的拼写错误检测的训练模型;通过前向输入的训练语料句子对所述训练模型进行训练,得到单向的拼写错误检测模型。在一个实施例中,基于长短期记忆神经网络以及自然语言语料数据建立双向的拼写错误检测的训练模型;通过前向输入和后向输入的训练语料句子对所述训练模型进行训练,得到双向的拼写错误检测模型。在一个实施例中,所述混淆字集以键-值对应的方式存储在文件中;其中,键为汉字的拼音,值为发此拼音的文字集合。一种文字拼写的检测系统,包括:检测模块,用于利用预先训练的拼写错误修正模型检测待识别语句中各个文字及其对应的混淆字集中各个混淆字在当前位置上的出现概率;第一判断模块,用于若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;第二判断模块,用于若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则根据该文字在其相应的混淆集中的出现概率的排序判断是否拼写错误。在一个实施例中,所述的文字拼写的检测系统还包括:训练模块,用于利用自然语言的语料数据并建立拼写错误检测的训练模型,对所述语料数据进行预处理得到训练语料句子,利用所述训练语料句子对所述训练模型进行训练,得到所述拼写错误检测模型。一种文字拼写的检测系统,包括:检测模块,用于利用预先训练的拼写错误修正模型检测待识别语句中各个文字及其对应的混淆字集中各个混淆字在当前位置上的出现概率;第一判断模块,用于若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;第二判断模块,用于若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则根据该文字在其相应的混淆集中的出现概率的排序判断是否拼写错误。上述文字拼写的检测系统,利用预先训练的拼写错误修正模型检测文字及其对应的混淆字集中混淆字在当前位置上的出现概率,结合相应的概率阈值以及混淆字集中混淆字的出现概率来判断该文字是否错误,实现了对文本输入中的拼写进行准确、高效的检测。在一个实施例中,所述的文字拼写的检测系统还包括:训练模块,用于利用自然语言的语料数据并建立拼写错误检测的训练模型,对所述语料数据进行预处理得到训练语料句子,利用所述训练语料句子对所述训练模型进行训练,得到所述拼写错误检测模型。一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的文字拼写的检测方法。上述计算机设备,通过所述处理器上运行的计算机程序,实现了对文本输入中的拼写进行准确、高效的检测。一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述的文字拼写的检测方法。上述计算机存储介质,通过其存储的计算机程序,实现了对文本输入中的拼写进行准确、高效的检测。附图说明图1是一个实施例的文字拼写的检测方法流程图;图2是另一个实施例的文字拼写的检测方法流程图;图3是一个实施例的训练拼写错误检测模型的流程图;图4是单向的训练模型示意图;图5是单向的训练模型的预测结果的示意图;图6是双向的训练模型示意图;图7是双向的训练模型的预测结果的示意图;图8是一个实施例的利用混淆字修正待识别语句的流程图;图9是计算概率运算值流程图;图10是一个实施例的文字拼写的检测系统结构示意图;图11是另一个实施例的文字拼写的检测系统结构示意图;图12为一个实施例中计算机设备的内部结构示意图。具体实施方式为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述。附图中给出了本专利技术的首选实施例。但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术。本专利技术实施例所提供的技术方案,可以应用于包括个人电脑、智能手机、平板电脑、个人数字助理等终端设备上。所述终端设备上可运行文本输入程序,输入文本内容,并在文字拼写错误时,通过本专利技术实施例提供的文字拼写的检测方本文档来自技高网
...

【技术保护点】
1.一种文字拼写的检测方法,其特征在于,包括以下步骤:利用预先训练的拼写错误修正模型检测待识别语句中各个文字及其对应的混淆字集中各个混淆字在当前位置上的出现概率;若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则根据该文字在其相应的混淆集中的出现概率的排序判断是否拼写错误。

【技术特征摘要】
1.一种文字拼写的检测方法,其特征在于,包括以下步骤:利用预先训练的拼写错误修正模型检测待识别语句中各个文字及其对应的混淆字集中各个混淆字在当前位置上的出现概率;若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则根据该文字在其相应的混淆集中的出现概率的排序判断是否拼写错误。2.根据权利要求1所述的文字拼写的检测方法,其特征在于,所述根据该文字在其相应的混淆集中的出现概率的排序判断是否拼写错误的步骤包括:如果该文字在其相应的混淆集中的出现概率最大,判定该文字没有拼写错误,否则判定该文字拼写错误。3.根据权利要求1所述的文字拼写的检测方法,其特征在于,所述利用预先训练的拼写错误修正模型检测待识别语句中各个文字及其对应的混淆字集中各个混淆字在当前位置上的出现概率的步骤包括:将待识别语句中的文字输入所述拼写错误修正模型进行检测,得到该文字的下一个位置上各个文字的概率向量,从各个文字的概率向量中获取下一个文字的出现概率;获取所述文字的混淆字集,利用所述拼写错误修正模型检测所述文字的混淆字集中各个混淆字在当前位置上的出现概率;其中,所述混淆字集为所述文字拼写相近的多个文字的集合。4.根据权利要求1所述的文字拼写的检测方法,其特征在于,还包括:利用自然语言的语料数据并建立拼写错误检测的训练模型;对所述语料数据进行预处理得到训练语料句子;利用所述训练语料句子对所述训练模型进行训练,得到所述拼写错误检测模型。5.根据权利要求4所述的文字拼写的检测方法,其特征在于,所述对所述语料数据进行预处理得到训练语料句子的步骤包括:将所述训练模型中的语料数据中的冗余内容进行删除,以及将非文字的数据用字母进行替换;以文字和所述字母为单位对语料数据中的句子进行分割,并在句子开头和结尾添加句子开...

【专利技术属性】
技术研发人员:王鹏
申请(专利权)人:广州视源电子科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1