The present invention relates to a method for spelling detection, a system, a computer device and a storage medium. The method includes: detecting the occurrence probability of confused words in each character and its corresponding confused word set in a sentence to be recognized by using a pre-trained spelling error correction model; and detecting the occurrence probability of confused words in the current position if the current character appears; If the occurrence probability is greater than the first probability threshold, it is determined that there is no spelling error; if the occurrence probability of the current text is less than the first probability threshold and greater than the second probability threshold, the spelling error can be judged according to the order of occurrence probability of the text in its corresponding confusion set. The technique of the invention detects the occurrence probability of a word and its corresponding confused words in the current position by using a pre-trained spelling error correction model, and determines whether the word is wrong by combining the corresponding probability threshold and the occurrence probability of the confused words in the confused words set, thus realizing the spelling input in the text input. Accurate and efficient detection.
【技术实现步骤摘要】
文字拼写的检测方法、系统、计算机设备及存储介质
本专利技术涉及计算机软件
,特别是涉及一种文字拼写的检测方法、系统、计算机设备及存储介质。
技术介绍
随着计算机软件技术的不断发展,对于文本信息的检索、抽取、翻译等技术逐渐成熟,然而对于文本的校对还没有准确高效的方法。对于文本中错别字的识别是文本校对的核心环节,文本中的错字严重影响了文本的质量,例如,新闻稿件对错别字的要求十分严格,如果没有对稿件中的错别字进行及时的识别和纠正,可能会向读者传递错误信息,所以对于文本中错字的识别具有重要意义。传统输入错误的识别方法主要采用基于统计的方法,此方法需要根据上下文中的字、词等的特征,建立统计语言模型,此方法依赖统计语言模型,在建立统计语言模型的过程中,统计数据稀疏问题会严重影响其识别的效率和精度,难以对文本输入中的拼写是否准确进行准确、高效的检测。
技术实现思路
基于此,有必要针对上述难以对文本输入中的拼写错误进行准确、高效的修正的问题,提供一种文字拼写的检测方法、系统、计算机设备及存储介质。一种文字拼写的检测方法,包括以下步骤:利用预先训练的拼写错误修正模型检测待识别语句中各个文字及其对应的混淆字集中各个混淆字在当前位置上的出现概率;若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则根据该文字在其相应的混淆集中的出现概率的排序判断是否拼写错误。上述文字拼写的检测方法,利用预先训练的拼写错误修正模型检测文字及其对应的混淆字集中混淆字在当前位置上的出现概率,结合相应的概率阈值以及混淆字集中混淆字的 ...
【技术保护点】
1.一种文字拼写的检测方法,其特征在于,包括以下步骤:利用预先训练的拼写错误修正模型检测待识别语句中各个文字及其对应的混淆字集中各个混淆字在当前位置上的出现概率;若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则根据该文字在其相应的混淆集中的出现概率的排序判断是否拼写错误。
【技术特征摘要】
1.一种文字拼写的检测方法,其特征在于,包括以下步骤:利用预先训练的拼写错误修正模型检测待识别语句中各个文字及其对应的混淆字集中各个混淆字在当前位置上的出现概率;若当前文字的出现概率大于第一概率阈值,则判定该文字没有拼写错误;若当前文字的出现概率小于第一概率阈值且大于第二概率阈值,则根据该文字在其相应的混淆集中的出现概率的排序判断是否拼写错误。2.根据权利要求1所述的文字拼写的检测方法,其特征在于,所述根据该文字在其相应的混淆集中的出现概率的排序判断是否拼写错误的步骤包括:如果该文字在其相应的混淆集中的出现概率最大,判定该文字没有拼写错误,否则判定该文字拼写错误。3.根据权利要求1所述的文字拼写的检测方法,其特征在于,所述利用预先训练的拼写错误修正模型检测待识别语句中各个文字及其对应的混淆字集中各个混淆字在当前位置上的出现概率的步骤包括:将待识别语句中的文字输入所述拼写错误修正模型进行检测,得到该文字的下一个位置上各个文字的概率向量,从各个文字的概率向量中获取下一个文字的出现概率;获取所述文字的混淆字集,利用所述拼写错误修正模型检测所述文字的混淆字集中各个混淆字在当前位置上的出现概率;其中,所述混淆字集为所述文字拼写相近的多个文字的集合。4.根据权利要求1所述的文字拼写的检测方法,其特征在于,还包括:利用自然语言的语料数据并建立拼写错误检测的训练模型;对所述语料数据进行预处理得到训练语料句子;利用所述训练语料句子对所述训练模型进行训练,得到所述拼写错误检测模型。5.根据权利要求4所述的文字拼写的检测方法,其特征在于,所述对所述语料数据进行预处理得到训练语料句子的步骤包括:将所述训练模型中的语料数据中的冗余内容进行删除,以及将非文字的数据用字母进行替换;以文字和所述字母为单位对语料数据中的句子进行分割,并在句子开头和结尾添加句子开...
【专利技术属性】
技术研发人员:王鹏,
申请(专利权)人:广州视源电子科技股份有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。