【技术实现步骤摘要】
用于执行文本纠错的方法和系统
本说明书的一个或多个实施例涉及用于执行文本纠错的方法和系统。
技术介绍
为了改正用户输入的文本中的错误,文本纠错变得越来越重要。例如,用户在执行搜索时,可能输入了错误的关键字,此时为了提供正确的搜索结果,通常需要对用户输入的关键字自动执行文本纠错,以便提供用户想要的结果。然而,目前的文本纠错方案存在各种缺陷,需要一种能够高效地执行文本纠错的方案。
技术实现思路
为了克服现有技术的缺陷,本说明书的一个或多个实施例提供了用于文本纠错的技术方案。本说明书的一个或多个实施例通过以下技术方案来实现其上述目的。在一个方面中,公开了一种用于文本纠错的方法,所述方法包括:接收待纠错词语;对于目标词库中的每个目标词语,计算所述待纠错词语与该目标词语的字形相似度;确定所述目标词库中与所述待纠错词语具有最大字形相似度的目标词语来作为候选目标词语;以及如果所述待纠错词语与所述候选目标词语之间的字形相似度在预定义阈值范围内,则用所述候选目标词语替换所述待纠错词语。优选地,计算所述待纠错词语与该目标词语的字形相似度包括:基于所述待纠错词语中的汉字的点阵字体和该目标词语中的汉字的点阵字体来计算所述字形相似度。优选地,计算所述待纠错词语与该目标词语的字形相似度包括:计算所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度;以及基于所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度的平均值和/或最小值来确定所述待纠错词语与该目标词语的字形相似度。优选地,计算所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度包括:确定所述待纠错词语中的每 ...
【技术保护点】
1.一种用于文本纠错的方法,其特征在于,所述方法包括:接收待纠错词语;对于目标词库中的每个目标词语,计算所述待纠错词语与该目标词语的字形相似度;确定所述目标词库中与所述待纠错词语具有最大字形相似度的目标词语来作为候选目标词语;以及如果所述待纠错词语与所述候选目标词语之间的字形相似度在预定义阈值范围内,则用所述候选目标词语替换所述待纠错词语。
【技术特征摘要】
1.一种用于文本纠错的方法,其特征在于,所述方法包括:接收待纠错词语;对于目标词库中的每个目标词语,计算所述待纠错词语与该目标词语的字形相似度;确定所述目标词库中与所述待纠错词语具有最大字形相似度的目标词语来作为候选目标词语;以及如果所述待纠错词语与所述候选目标词语之间的字形相似度在预定义阈值范围内,则用所述候选目标词语替换所述待纠错词语。2.如权利要求1所述的方法,其特征在于,计算所述待纠错词语与该目标词语的字形相似度包括:基于所述待纠错词语中的汉字的点阵字体和该目标词语中的汉字的点阵字体来计算所述字形相似度。3.如权利要求1所述的方法,其特征在于,计算所述待纠错词语与该目标词语的字形相似度包括:计算所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度;以及基于所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度的平均值和/或最小值来确定所述待纠错词语与该目标词语的字形相似度。4.如权利要求3所述的方法,其特征在于,计算所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度包括:确定所述待纠错词语中的每个汉字的点阵字体;将所述待纠错词语中的每个汉字的点阵字体和该目标词语的相应汉字的点阵字体进行比较;以及基于所述比较确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度。5.如权利要求4所述的方法,其特征在于,所述待纠错词语中的每个汉字的点阵字体和该目标词语的相应汉字的点阵字体具有同样多的像素。6.如权利要求4所述的方法,其特征在于,基于所述比较确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度包括:确定所述待纠错词语中的每个汉字的点阵字体和该目标词语的相应汉字的点阵字体间的像素值相同的像素的数量;以及基于所述像素值相同的像素的数量来确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度。7.如权利要求4所述的方法,其特征在于,基于所述比较确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度包括:确定所述待纠错词语中的每个汉字的点阵字体和该目标词语的相应汉字的点阵字体间的像素值相同的像素的数量;确定所述像素值相同的像素的数量占所述待纠错词语中的所有汉字的总像素数量的比例;以及基于所述比例来确定所述待纠错词语中的每个汉字与该目标词语的相应汉字的字形相似度。8.如权利要求4所述的方法,其特征在于,确定所述待纠错词语中的每个汉字的点阵字体包括:对于所述待纠错词语中的每个汉字,将该汉字表示为GBK编码;获取用GBK编码表示的该汉字的字节信息;基于所述字节信息确定该汉字的区位码和偏移量;以及基于汉字的偏移量来找到该汉字在点阵字库中的字模的位置,以获得该汉字的二进制数据。9.如权利要求8所述的方法,其特征在于,所述方法还包括:对于所述待纠错词语中的每个汉字,将该汉字的二进制数据与该目标词语中的相应汉字的二进制数据进行逐位比较,以确定该汉字与该目标词语中的相应汉字的字形相似度。10.如权利要求1所述的方法,其特征在于,所述方法还包括:获得所述目标词库,所述目标词库由与特定场景相关联的词语构成。11.一种用于提供智能...
【专利技术属性】
技术研发人员:陈召群,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛,KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。