用于确定文字形近度的方法和设备技术

技术编号:15691540 阅读:61 留言:0更新日期:2017-06-24 04:49
提供了一种用于确定文字形近度的方法和设备,所述方法包括(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。在根据本发明专利技术示例性实施例的用于确定文字形近度的方法和设备中,可基于文字转换为图片格式之后的像素匹配程度来判断文字的形近程度,从而不再受限于任何编码规则而成为一种通用的形近字确定方式。

Method and apparatus for determining text shape proximity

A method and apparatus for determining the degree of text shape near are provided, the method comprises (A) will be the first text comparison and second text respectively, image format conversion, in order to obtain the corresponding first picture and the second picture; (B) to determine the first picture and the second picture of the pixel matching between; and (C) to determine the pixel matching is determined based on the first second words between text and shape close degree. In according to an embodiment of the present invention method and apparatus for determining a character shape near degree, can be converted to text based on pixel image format after matching to determine the extent of the text in which is no longer limited to any degree, encoding rules and become a common way to determine nearly word.

【技术实现步骤摘要】
用于确定文字形近度的方法和设备
本专利技术总体说来涉及计算机信息处理,更具体地说,涉及一种基于计算机信息处理来确定文字形近度的方法和设备。
技术介绍
在诸如中文、日文、韩文等语言中,存在大量字形上近似的文字,这些形近字的存在很容易导致文字使用上的错误。过去较多地依靠人力来查找错误使用的形近字,但由于形近字本身容易混淆,导致不仅需要耗费大量的人力,而且难免错漏的情况。随着计算机技术的发展,越来越多地采用自动识别的方式来查找形近字。通常,在文字基于字形被编码(例如,按照编码规则被转换为由1-5位字符(例如,字母或数字等)组成的码字)的情况下,可基于码字之间的编辑距离来确定文字之间的形近程度,这里,作为示例,编辑距离可基于码字之间字符的增加、删减或改换来计算。例如,公开号为CN103399907A的中国专利申请《一种基于编辑距离计算中文字符串相似度的方法及装置》公开了一种基于编辑距离计算中文字符串相似度的方法,其采用四角号码编码将字符串中的汉字转换成四角编码,从而基于编辑距离计算汉字的相似度。上述文字编码对编码规则的依赖极强,然而,这些编码规则无法有效地刻画部首与部首之间的相似度。以汉字为例,五笔码、仓颉码、四角码等均基于汉字的部首和/或笔画等组件,但是编码结果之间的编辑距离常常无法体现出汉字之间的相似程度,例如,“宇”字的五笔编码为“PGFJ”,“盱”字的五笔编码为“HGFJ”,两者之间的编辑距离仅仅为1,但这两个字在视觉上并不相似。又例如,“操”字的四角编码为56094,“燥”字的四角编码为96894,两个码字之间仅有2个相同字符,编辑距离较大,然而这两个字的相似度实则极高。此外,对于笔画数特别少的文字,例如,“二”和“三”、“干”和“于”,也难以通过码字之间的编辑距离来判断近似性。可以看出,基于码字之间的编辑距离来判断文字近似性时必然受到编码规则的限制,也就是说,编码时损失掉的那部分文字特点信息导致难以有效地衡量文字的形近程度。
技术实现思路
本专利技术的示例性实施例旨在克服现有技术中难以准确识别形近文字的缺陷。根据本专利技术的示例性实施例,提供一种用于确定文字形近度的方法,包括:(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。可选地,在所述方法中,在步骤(A)中,按照点阵字体将第一文字和第二文字分别进行图片格式转换。可选地,在所述方法中,在步骤(B)中,以单个像素为单位来确定第一图片与第二图片之间的像素匹配情况。可选地,在所述方法中,步骤(B)包括:(b1)对第一图片和第二图片的像素分别进行二值化处理;以及(b2)确定经过二值化处理之后的第一图片与第二图片之间的像素匹配情况。可选地,在所述方法中,步骤(B)包括:(b3)对第一图片和第二图片分别进行至少一种几何变换;以及(b4)确定几何变换之前的第一图片以及经过每种几何变换后的第一图片分别与几何变换之前的第二图片以及经过每种几何变换后的第二图片之间的像素匹配情况;并且,步骤(C)包括:(c1)分别基于每个确定的像素匹配情况来确定第一文字与第二文字之间的候选形近度;以及(c2)将确定的候选形近度之中的最高候选形近度确定为第一图片与第二图片之间的形近度。可选地,在所述方法中,所述至少一种几何变换包括平移变换、缩放变换、删行变换和删列变换之中的至少一种。可选地,在所述方法中,在步骤(B)中,通过考虑非空白像素之间的匹配情况来确定第一图片与第二图片之间的像素匹配情况。可选地,所述方法还包括步骤(D)和步骤(E),其中,所述方法在步骤(A)之前,执行步骤(D):确定待比较的第一文字和第二文字的笔画数量,其中,如果在步骤(D)中确定第一文字和第二文字之中的至少一个的笔画数量小于预设阈值,则所述方法执行步骤(A)、步骤(B)和步骤(C);否则,所述方法执行步骤(E):基于第一文字与第二文字的编辑距离来确定第一文字与第二文字之间的形近度。可选地,在所述方法中,所述方法针对多个第一文字和多个第二文字分别确定每个第一文字与每个第二文字之间的形近度,并且,所述方法还包括:(F)针对每个第一文字,选择与所述每个第一文字形近度较高的至少一个第二文字作为所述每个第一文字的形近字,并建立由所述多个第一文字及其形近字组成的形近字库。根据本专利技术的另一示例性实施例,提供一种执行文字校对的方法,包括:确定待校对文字;从基于本专利技术示例性实施例建立的形近字库中搜索所述待校对文字的形近字;以及输出搜索到的所述待校对文字的形近字。根据本专利技术的另一示例性实施例,提供一种用于确定文字形近度的设备,包括:转换装置,用于将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;匹配确定装置,用于确定第一图片与第二图片之间的像素匹配情况;以及形近度确定装置,用于基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。可选地,在所述设备中,转换装置按照点阵字体将第一文字和第二文字分别进行图片格式转换。可选地,在所述设备中,匹配确定装置以单个像素为单位来确定第一图片与第二图片之间的像素匹配情况。可选地,在所述设备中,匹配确定装置包括:二值化处理单元,用于对第一图片和第二图片的像素分别进行二值化处理;以及匹配单元,用于确定经过二值化处理之后的第一图片与第二图片之间的像素匹配情况。可选地,在所述设备中,匹配确定装置包括:变换单元,用于对第一图片和第二图片分别进行至少一种几何变换;以及匹配单元,用于确定几何变换之前的第一图片以及经过每种几何变换后的第一图片分别与几何变换之前的第二图片以及经过每种几何变换后的第二图片之间的像素匹配情况;并且,形近度确定装置包括:候选形近度确定单元,用于分别基于每个确定的像素匹配情况来确定第一文字与第二文字之间的候选形近度;以及最高形近度确定单元,用于将确定的候选形近度之中的最高候选形近度确定为第一图片与第二图片之间的形近度。可选地,在所述设备中,所述至少一种几何变换包括平移变换、缩放变换、删行变换和删列变换之中的至少一种。可选地,在所述设备中,匹配确定装置通过考虑非空白像素之间的匹配情况来确定第一图片与第二图片之间的像素匹配情况。可选地,所述设备还包括:笔画确定装置,用于确定待比较的第一文字和第二文字的笔画数量;其中,如果笔画确定装置确定第一文字和第二文字之中的至少一个的笔画数量小于预设阈值,则转换装置执行图片格式转换,匹配确定装置确定像素匹配情况,并且形近度确定装置基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度;否则,形近度确定装置基于第一文字与第二文字的编辑距离来确定第一文字与第二文字之间的形近度。可选地,所述设备针对多个第一文字和多个第二文字分别确定每个第一文字与每个第二文字之间的形近度,并且,所述设备还包括:字库建立装置,用于针对每个第一文字,选择与所述每个第一文字形近度较高的至少一个第二文字作为所述每个第一文字的形近字,并建立由所述多个第一文字及其形近字组成的形近字库。根据本专利技术的另一示例性实施例,提供一种执行文字校对的设备,包括:文字确定装置,用于确定待校对文字;形近字搜索装置,本文档来自技高网
...
用于确定文字形近度的方法和设备

【技术保护点】
一种用于确定文字形近度的方法,包括:(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。

【技术特征摘要】
1.一种用于确定文字形近度的方法,包括:(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。2.如权利要求1所述的方法,其中,步骤(B)包括:(b1)对第一图片和第二图片的像素分别进行二值化处理;以及(b2)确定经过二值化处理之后的第一图片与第二图片之间的像素匹配情况。3.如权利要求1所述的方法,其中,步骤(B)包括:(b3)对第一图片和第二图片分别进行至少一种几何变换;以及(b4)确定几何变换之前的第一图片以及经过每种几何变换后的第一图片分别与几何变换之前的第二图片以及经过每种几何变换后的第二图片之间的像素匹配情况;并且,步骤(C)包括:(c1)分别基于每个确定的像素匹配情况来确定第一文字与第二文字之间的候选形近度;以及(c2)将确定的候选形近度之中的最高候选形近度确定为第一图片与第二图片之间的形近度。4.如权利要求1所述的方法,还包括步骤(D)和步骤(E),其中,所述方法在步骤(A)之前,执行步骤(D):确定待比较的第一文字和第二文字的笔画数量,其中,如果在步骤(D)中确定第一文字和第二文字之中的至少一个的笔画数量小于预设阈值,则所述方法执行步骤(A)、步骤(B)和步骤(C);否则,所述方法执行步骤(E):基于第一文字与第二文字的编辑距离来确定第一文字与第二文字之间的形近度。5.如权利要求1到4之中的任一权利要求所述的方法,其中,所述方法针对多个第一文字和多个第二文字分别确定每个第一文字与每个第二文字之间的形近度,并且,所述方法还包括:(F)针对每个第一文字,选择与所...

【专利技术属性】
技术研发人员:王珵
申请(专利权)人:第四范式北京技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1