错别字的纠错方法和装置制造方法及图纸

技术编号:15763256 阅读:91 留言:0更新日期:2017-07-06 00:34
本公开涉及一种错别字的纠错方法和装置,该方法包括:根据输入的目标词语的字数和拼音获取候选词语,获取每个候选词语在所有候选词语中的词频占比,获取每个候选词语与目标词语的词语相似度、拼音相似度和笔画相似度,根据每个候选词语的所述词频占比、词语相似度、拼音相似度和笔画相似度在所有候选词语中选择符合预设条件的目标候选词语,利用目标候选词语替换目标词语。能够对用户输入的词语实现在没有人工参与的情况下进行高准确度的纠错。

Error correction method and apparatus for typos

Error correction method and device of the invention relates to a wrong character, the method comprises: according to target words input words and phonetic acquisition candidate words, access frequency of each candidate words in all candidate words in proportion, for each candidate words and target words, phonetic similarity and similarity similarity according to the strokes. The frequency of each candidate word ratio, word similarity, similarity and similarity with Pinyin strokes target candidate words preconditions in all candidate words, the target candidate words replacing target words. The user can input words to achieve high accuracy error correction without human participation.

【技术实现步骤摘要】
错别字的纠错方法和装置
本公开涉及文字处理
,具体地,涉及一种错别字的纠错方法和装置。
技术介绍
随着互联网的普及和发展,我们可以通过互联网和各类应用软件来获取我们日常所需的各种信息。在这一过程中搜索引擎扮演着不可缺少的角色,而确保搜索时所输入的内容的正确性(通常指搜索内容中不含有错别字)是保障搜索准确性与搜索效率的关键和前提。目前的采用基于词表、词库查询方法的纠错方法虽然准确率较高但是需要一定的人工参与,而采用的相似算法(如汉明算法)的纠错方法虽不需人工参与但准确度却很低。因此,如何在不需要人工参与的情况下提高纠错方法的准确度是目前亟需解决的问题。
技术实现思路
本公开的目的是提供一种错别字的纠错方法和装置,用于解决在没有人工参与的情况下纠错方法的准确度低的问题。为了实现上述目的,本公开提供一种错别字的纠错方法,所述方法包括:根据输入的目标词语的字数和拼音获取候选词语;获取每个所述候选词语在所有所述候选词语中的词频占比;获取每个所述候选词语与所述目标词语的词语相似度、拼音相似度和笔画相似度;根据每个所述候选词语的所述词频占比、所述词语相似度、所述拼音相似度和所述笔画相似度在所有所述候选词语中选择符合预设条件的目标候选词语;利用所述目标候选词语替换所述目标词语。可选的,所述根据输入的目标词语的字数和拼音获取候选词语,包括:获取所述目标词语的字数和拼音;在数据库中获取与所述目标词语的字数相同的词语作为待提取词语;获取每个所述待提取词语的拼音;将每个所述待提取词语中每个字的拼音与所述目标词语中对应字的拼音进行对比,获取每个所述待提取词语与所述目标词语的字音相似比例,所述字音相似比例为任一所述待提取词语与所述目标词语中拼音相同的字所占的比例;提取所有所述待提取词语中的字音相似比例大于预设比例的待提取词语作为所述候选词语。可选的,所述获取每个所述候选词语与所述目标词语的词语相似度、拼音相似度和笔画相似度,包括:在每个所述候选词语以及所述目标词语中,确定每个所述候选词语与所述目标词语的不同字;根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的词语相似度;根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的拼音相似度;根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的笔画相似度。可选的,所述根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的词语相似度,包括:获取每个所述候选词语与所述目标词语的不同字之间的汉明距离,作为每个所述候选词语的汉明距离;根据每个所述候选词语的汉明距离获取每个所述候选词语与所述目标词语的词语相似度。可选的,所述根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的拼音相似度,包括:将每个所述候选词语与所述目标词语的不同字的拼音字母进行逐位比较,确定每个所述候选词语与所述目标词语不同的拼音字母的个数;根据每个所述候选词语与所述目标词语不同的拼音字母的个数,以及所述目标词语的拼音字母的总字数确定每个所述候选词语与所述目标词语的拼音相似度。可选的,所述根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的笔画相似度,包括:将每个所述候选词语与所述目标词语的不同字的笔画进行逐个比较,确定每个所述候选词语与所述目标词语不同的笔画的个数;根据每个所述候选词语与所述目标词语不同的笔画的个数,以及所述目标词汇的总笔画数确定每个所述候选词语与所述目标词语的笔画相似度。可选的,所述根据每个所述候选词语的所述词频占比、所述词语相似度、所述拼音相似度和所述笔画相似度在所有所述候选词语中选择符合预设条件的目标候选词语,包括:按照预设算法将所述每个所述候选词语的所述词频占比、所述词语相似度、所述拼音相似度和所述笔画相似度分别换算为词语热度分值、词语相似度分值、拼音相似度分值和笔画相似度分值;将每个所述候选词语的所述词语热度分值、词语相似度分值、拼音相似度分值和笔画相似度分值求和,得到每个所述候选词语的总分;判断是否存在符合所述预设条件的候选词语,所述预设条件包括:所述词语相似度、所述拼音相似度和所述笔画相似度大于预设的相似度阈值,且总分大于分数阈值;当存在符合所述预设条件的候选词语时,确定所述目标词语为输入错误的词语;在符合所述预设条件的候选词语中选择总分最高的候选词语作为所述目标候选词语。本公开还提供一种错别字的纠错装置,所述装置包括:词语选择模块,用于根据输入的目标词语的字数和拼音获取候选词语;词频确定模块,用于获取每个所述候选词语在所有所述候选词语中的词频占比;词语对比模块,用于获取每个所述候选词语与所述目标词语的词语相似度、拼音相似度和笔画相似度;词语筛选模块,用于根据每个所述候选词语的所述词频占比、所述词语相似度、所述拼音相似度和所述笔画相似度在所有所述候选词语中选择符合预设条件的目标候选词语;词语替换模块,用于利用所述目标候选词语替换所述目标词语。可选的,所述词语选择模块,包括:词语识别子模块,用于获取所述目标词语的字数和拼音;词语查找子模块,用于在数据库中获取与所述目标词语的字数相同的词语作为待提取词语;拼音识别子模块,用于获取每个所述待提取词语的拼音;拼音对比子模块,用于将每个所述待提取词语中每个字的拼音与所述目标词语中对应字的拼音进行对比,获取每个所述待提取词语与所述目标词语的字音相似比例,所述字音相似比例为任一所述待提取词语与所述目标词语中拼音相同的字所占的比例;词语提取子模块,用于提取所有所述待提取词语中的字音相似比例大于预设比例的待提取词语作为所述候选词语。可选的,所述词语对比模块,包括:文字识别子模块,用于在每个所述候选词语以及所述目标词语中,确定每个所述候选词语与所述目标词语的不同字;词语对比子模块,用于根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的词语相似度;拼音对比子模块,用于根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的拼音相似度;笔画对比子模块,根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的笔画相似度。可选的,所述词语对比子模块用于:获取每个所述候选词语与所述目标词语的不同字之间的汉明距离,作为每个所述候选词语的汉明距离;根据每个所述候选词语的汉明距离获取每个所述候选词语与所述目标词语的词语相似度。可选的,所述拼音对比子模块,用于:将每个所述候选词语与所述目标词语的不同字的拼音字母进行逐位比较,确定每个所述候选词语与所述目标词语不同的拼音字母的个数;根据每个所述候选词语与所述目标词语不同的拼音字母的个数,以及所述目标词语的拼音字母的总字数确定每个所述候选词语与所述目标词语的拼音相似度。可选的,所述笔画对比子模块,用于:将每个所述候选词语与所述目标词语的不同字的笔画进行逐个比较,确定每个所述候选词语与所述目标词语不同的笔画的个数;根据每个所述候选词语与所述目标词语不同的笔画的个数,以及所述目标词汇的总笔画数确定每个所述候选词语与所述目标词语的笔画相似度。可选的,所述词语筛选模块,包括:评分子模块,用于按照预设算法将所述本文档来自技高网...
错别字的纠错方法和装置

【技术保护点】
一种错别字的纠错方法,其特征在于,所述方法包括:根据输入的目标词语的字数和拼音获取候选词语;获取每个所述候选词语在所有所述候选词语中的词频占比;获取每个所述候选词语与所述目标词语的词语相似度、拼音相似度和笔画相似度;根据每个所述候选词语的所述词频占比、所述词语相似度、所述拼音相似度和所述笔画相似度在所有所述候选词语中选择符合预设条件的目标候选词语;利用所述目标候选词语替换所述目标词语。

【技术特征摘要】
1.一种错别字的纠错方法,其特征在于,所述方法包括:根据输入的目标词语的字数和拼音获取候选词语;获取每个所述候选词语在所有所述候选词语中的词频占比;获取每个所述候选词语与所述目标词语的词语相似度、拼音相似度和笔画相似度;根据每个所述候选词语的所述词频占比、所述词语相似度、所述拼音相似度和所述笔画相似度在所有所述候选词语中选择符合预设条件的目标候选词语;利用所述目标候选词语替换所述目标词语。2.根据权利要求1所述的方法,其特征在于,所述根据输入的目标词语的字数和拼音获取候选词语,包括:获取所述目标词语的字数和拼音;在数据库中获取与所述目标词语的字数相同的词语作为待提取词语;获取每个所述待提取词语的拼音;将每个所述待提取词语中每个字的拼音与所述目标词语中对应字的拼音进行对比,获取每个所述待提取词语与所述目标词语的字音相似比例,所述字音相似比例为任一所述待提取词语与所述目标词语中拼音相同的字所占的比例;提取所有所述待提取词语中的字音相似比例大于预设比例的待提取词语作为所述候选词语。3.根据权利要求1所述的方法,其特征在于,所述获取每个所述候选词语与所述目标词语的词语相似度、拼音相似度和笔画相似度,包括:在每个所述候选词语以及所述目标词语中,确定每个所述候选词语与所述目标词语的不同字;根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的词语相似度;根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的拼音相似度;根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的笔画相似度。4.根据权利要求3所述的方法,其特征在于,所述根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的词语相似度,包括:获取每个所述候选词语与所述目标词语的不同字之间的汉明距离,作为每个所述候选词语的汉明距离;根据每个所述候选词语的汉明距离获取每个所述候选词语与所述目标词语的词语相似度。5.根据权利要求3所述的方法,其特征在于,所述根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的拼音相似度,包括:将每个所述候选词语与所述目标词语的不同字的拼音字母进行逐位比较,确定每个所述候选词语与所述目标词语不同的拼音字母的个数;根据每个所述候选词语与所述目标词语不同的拼音字母的个数,以及所述目标词语的拼音字母的总字数确定每个所述候选词语与所述目标词语的拼音相似度。6.根据权利要求3所述的方法,其特征在于,所述根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的笔画相似度,包括:将每个所述候选词语与所述目标词语的不同字的笔画进行逐个比较,确定每个所述候选词语与所述目标词语不同的笔画的个数;根据每个所述候选词语与所述目标词语不同的笔画的个数,...

【专利技术属性】
技术研发人员:麦涛张旭刘洋张腾白杨
申请(专利权)人:东软集团股份有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1