A method and apparatus for determining the degree of text shape near are provided, the method comprises (A) will be the first text comparison and second text respectively, image format conversion, in order to obtain the corresponding first picture and the second picture; (B) to determine the first picture and the second picture of the pixel matching between; and (C) to determine the pixel matching is determined based on the first second words between text and shape close degree. In according to an embodiment of the present invention method and apparatus for determining a character shape near degree, can be converted to text based on pixel image format after matching to determine the extent of the text in which is no longer limited to any degree, encoding rules and become a common way to determine nearly word.
【技术实现步骤摘要】
用于确定文字形近度的方法和设备
本专利技术总体说来涉及计算机信息处理,更具体地说,涉及一种基于计算机信息处理来确定文字形近度的方法和设备。
技术介绍
在诸如中文、日文、韩文等语言中,存在大量字形上近似的文字,这些形近字的存在很容易导致文字使用上的错误。过去较多地依靠人力来查找错误使用的形近字,但由于形近字本身容易混淆,导致不仅需要耗费大量的人力,而且难免错漏的情况。随着计算机技术的发展,越来越多地采用自动识别的方式来查找形近字。通常,在文字基于字形被编码(例如,按照编码规则被转换为由1-5位字符(例如,字母或数字等)组成的码字)的情况下,可基于码字之间的编辑距离来确定文字之间的形近程度,这里,作为示例,编辑距离可基于码字之间字符的增加、删减或改换来计算。例如,公开号为CN103399907A的中国专利申请《一种基于编辑距离计算中文字符串相似度的方法及装置》公开了一种基于编辑距离计算中文字符串相似度的方法,其采用四角号码编码将字符串中的汉字转换成四角编码,从而基于编辑距离计算汉字的相似度。上述文字编码对编码规则的依赖极强,然而,这些编码规则无法有效地刻画部首与部首之间的相似度。以汉字为例,五笔码、仓颉码、四角码等均基于汉字的部首和/或笔画等组件,但是编码结果之间的编辑距离常常无法体现出汉字之间的相似程度,例如,“宇”字的五笔编码为“PGFJ”,“盱”字的五笔编码为“HGFJ”,两者之间的编辑距离仅仅为1,但这两个字在视觉上并不相似。又例如,“操”字的四角编码为56094,“燥”字的四角编码为96894,两个码字之间仅有2个相同字符,编辑距离较大,然而这两个字 ...
【技术保护点】
一种用于确定文字形近度的方法,包括:(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。
【技术特征摘要】
1.一种用于确定文字形近度的方法,包括:(A)将待比较的第一文字和第二文字分别进行图片格式转换,以得到相应的第一图片和第二图片;(B)确定第一图片与第二图片之间的像素匹配情况;以及(C)基于确定的像素匹配情况来确定第一文字与第二文字之间的形近度。2.如权利要求1所述的方法,其中,步骤(B)包括:(b1)对第一图片和第二图片的像素分别进行二值化处理;以及(b2)确定经过二值化处理之后的第一图片与第二图片之间的像素匹配情况。3.如权利要求1所述的方法,其中,步骤(B)包括:(b3)对第一图片和第二图片分别进行至少一种几何变换;以及(b4)确定几何变换之前的第一图片以及经过每种几何变换后的第一图片分别与几何变换之前的第二图片以及经过每种几何变换后的第二图片之间的像素匹配情况;并且,步骤(C)包括:(c1)分别基于每个确定的像素匹配情况来确定第一文字与第二文字之间的候选形近度;以及(c2)将确定的候选形近度之中的最高候选形近度确定为第一图片与第二图片之间的形近度。4.如权利要求1所述的方法,还包括步骤(D)和步骤(E),其中,所述方法在步骤(A)之前,执行步骤(D):确定待比较的第一文字和第二文字的笔画数量,其中,如果在步骤(D)中确定第一文字和第二文字之中的至少一个的笔画数量小于预设阈值,则所述方法执行步骤(A)、步骤(B)和步骤(C);否则,所述方法执行步骤(E):基于第一文字与第二文字的编辑距离来确定第一文字与第二文字之间的形近度。5.如权利要求1到4之中的任一权利要求所述的方法,其中,所述方法针对多个第一文字和多个第二文字分别确定每个第一文字与每个第二文字之间的形近度,并且,所述方法还包括:(F)针对每个第一文字,选择与所...
【专利技术属性】
技术研发人员:王珵,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。