Error correction method and device of the invention relates to a wrong character, the method comprises: according to target words input words and phonetic acquisition candidate words, access frequency of each candidate words in all candidate words in proportion, for each candidate words and target words, phonetic similarity and similarity similarity according to the strokes. The frequency of each candidate word ratio, word similarity, similarity and similarity with Pinyin strokes target candidate words preconditions in all candidate words, the target candidate words replacing target words. The user can input words to achieve high accuracy error correction without human participation.
【技术实现步骤摘要】
错别字的纠错方法和装置
本公开涉及文字处理
,具体地,涉及一种错别字的纠错方法和装置。
技术介绍
随着互联网的普及和发展,我们可以通过互联网和各类应用软件来获取我们日常所需的各种信息。在这一过程中搜索引擎扮演着不可缺少的角色,而确保搜索时所输入的内容的正确性(通常指搜索内容中不含有错别字)是保障搜索准确性与搜索效率的关键和前提。目前的采用基于词表、词库查询方法的纠错方法虽然准确率较高但是需要一定的人工参与,而采用的相似算法(如汉明算法)的纠错方法虽不需人工参与但准确度却很低。因此,如何在不需要人工参与的情况下提高纠错方法的准确度是目前亟需解决的问题。
技术实现思路
本公开的目的是提供一种错别字的纠错方法和装置,用于解决在没有人工参与的情况下纠错方法的准确度低的问题。为了实现上述目的,本公开提供一种错别字的纠错方法,所述方法包括:根据输入的目标词语的字数和拼音获取候选词语;获取每个所述候选词语在所有所述候选词语中的词频占比;获取每个所述候选词语与所述目标词语的词语相似度、拼音相似度和笔画相似度;根据每个所述候选词语的所述词频占比、所述词语相似度、所述拼音相似度和所述笔画相似度在所有所述候选词语中选择符合预设条件的目标候选词语;利用所述目标候选词语替换所述目标词语。可选的,所述根据输入的目标词语的字数和拼音获取候选词语,包括:获取所述目标词语的字数和拼音;在数据库中获取与所述目标词语的字数相同的词语作为待提取词语;获取每个所述待提取词语的拼音;将每个所述待提取词语中每个字的拼音与所述目标词语中对应字的拼音进行对比,获取每个所述待提取词语与所述目标词语的字音相 ...
【技术保护点】
一种错别字的纠错方法,其特征在于,所述方法包括:根据输入的目标词语的字数和拼音获取候选词语;获取每个所述候选词语在所有所述候选词语中的词频占比;获取每个所述候选词语与所述目标词语的词语相似度、拼音相似度和笔画相似度;根据每个所述候选词语的所述词频占比、所述词语相似度、所述拼音相似度和所述笔画相似度在所有所述候选词语中选择符合预设条件的目标候选词语;利用所述目标候选词语替换所述目标词语。
【技术特征摘要】
1.一种错别字的纠错方法,其特征在于,所述方法包括:根据输入的目标词语的字数和拼音获取候选词语;获取每个所述候选词语在所有所述候选词语中的词频占比;获取每个所述候选词语与所述目标词语的词语相似度、拼音相似度和笔画相似度;根据每个所述候选词语的所述词频占比、所述词语相似度、所述拼音相似度和所述笔画相似度在所有所述候选词语中选择符合预设条件的目标候选词语;利用所述目标候选词语替换所述目标词语。2.根据权利要求1所述的方法,其特征在于,所述根据输入的目标词语的字数和拼音获取候选词语,包括:获取所述目标词语的字数和拼音;在数据库中获取与所述目标词语的字数相同的词语作为待提取词语;获取每个所述待提取词语的拼音;将每个所述待提取词语中每个字的拼音与所述目标词语中对应字的拼音进行对比,获取每个所述待提取词语与所述目标词语的字音相似比例,所述字音相似比例为任一所述待提取词语与所述目标词语中拼音相同的字所占的比例;提取所有所述待提取词语中的字音相似比例大于预设比例的待提取词语作为所述候选词语。3.根据权利要求1所述的方法,其特征在于,所述获取每个所述候选词语与所述目标词语的词语相似度、拼音相似度和笔画相似度,包括:在每个所述候选词语以及所述目标词语中,确定每个所述候选词语与所述目标词语的不同字;根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的词语相似度;根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的拼音相似度;根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的笔画相似度。4.根据权利要求3所述的方法,其特征在于,所述根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的词语相似度,包括:获取每个所述候选词语与所述目标词语的不同字之间的汉明距离,作为每个所述候选词语的汉明距离;根据每个所述候选词语的汉明距离获取每个所述候选词语与所述目标词语的词语相似度。5.根据权利要求3所述的方法,其特征在于,所述根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的拼音相似度,包括:将每个所述候选词语与所述目标词语的不同字的拼音字母进行逐位比较,确定每个所述候选词语与所述目标词语不同的拼音字母的个数;根据每个所述候选词语与所述目标词语不同的拼音字母的个数,以及所述目标词语的拼音字母的总字数确定每个所述候选词语与所述目标词语的拼音相似度。6.根据权利要求3所述的方法,其特征在于,所述根据每个所述候选词语与所述目标词语的不同字获取每个所述候选词语与所述目标词语的笔画相似度,包括:将每个所述候选词语与所述目标词语的不同字的笔画进行逐个比较,确定每个所述候选词语与所述目标词语不同的笔画的个数;根据每个所述候选词语与所述目标词语不同的笔画的个数,...
【专利技术属性】
技术研发人员:麦涛,张旭,刘洋,张腾,白杨,
申请(专利权)人:东软集团股份有限公司,
类型:发明
国别省市:辽宁,21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。