字库字形标准性的检测方法技术

技术编号:2918760 阅读:491 留言:0更新日期:2012-04-11 18:40
本方法涉及一种字库标准符合性自动检测方法。根据被测字库输入字符集内的码点,生成一被测字形;将上述被测字形转化为位图图形格式;根据标准点阵字形生成一对应的标准字形;将上述标准字形转化为位图图形格式;对上述两位图图形格式进行归一化操作,消除标准字形和被测字形的大小差异;将上述两位图图形格式分别进行分块,提取每块的特征值,形成两对应的特征向量;计算特征向量的矢量距离;当特征向量的矢量距离小于设定的阈值时,判定被测字形符合标准。本发明专利技术将检测字库的重点放在了最后生成的字形上,通过计算机来进行测试,能够节省大量的人力,提高测试准确度,节省时间。

【技术实现步骤摘要】
所属
本方法涉及一种计算机软件信息标准化处理技术,尤其是一种字库标准符合性自动检测方法。
技术介绍
首先,字库的制作是按一定规则进行,一套完整的字库在面市前要经过多个流程才能完成。特别是汉文、藏文等复杂文字字库,更是复杂繁琐,每个笔划及细节都得仔细处理。一个字库的产生基本包含字稿、扫描、数字化拟合、修字等步骤。其中的某些步骤是很浩大的工程,在制作过程中很难保证不出现失误,字库中的每个编码的字形都不一定会符合国家的相应标准。另外,目前字库的设计格式主要有TrueType和OpenType两种,这两种字库生成的字形都是通过字库内部的Bezier曲线来定义的。OpenType更是使用字库中的GSUB与GPOS表格,可以实现字库中字形的多对一、一对多和多对多的替换与组合,并能够实现复杂的字形定位。但是国家标准是针对字形制定的,而不是针对曲线或者表格制定的,因此,字库中的每个编码的字形是否符合国家的标准字形是需要检测的。
技术实现思路
本专利技术的目的在于提供一种字库字形的检测方法,自动检测字库字形是否符合国家标准。本专利技术的,其步骤包括1)根据被测字库输入字符集内的码点,生成一被测字形;2)将上述被测字形转化为位形格式;3)根据标准点阵字形生成一对应的标准字形;4)将上述标准字形转化为位形格式;5)对上述两位形格式进行归一化操作,消除标准字形和被测字形的大小差异;6)将上述两位形格式分别进行M1×M2分块,提取每块的特征值,形成两对应的特征向量,其中M1和M2均为大于1的正整数; 7)计算特征向量的欧式距离;8)当特征向量的矢量距离小于设定的阈值时,判定被测字形符合标准。本专利技术还对两位形格式进行剪裁操作,消除字形周围多余的空白区域。上述提取特征值的过程为使用Garbor滤波器对上述各分块上的所有象素点进行分析,按照下列公式(1)对分块中对应的象素点分配权值,按照公式(2)得出分块的特征值;G(x,y)=κ2σ2exp=4λ2exp---(1)]]>Fd(xi,yj)=Σx=-Nx=NΣy=-Ny=Nfd(xi+x,yj+y)G(x,y)---(2)]]>其中σ=π,κ=2πλ,]]>波长λ为一大于等于1的正整数,N为大于1的正整数。优选长λ=8,N=2λ。本专利技术优选将上述两位形分别分为8×8块,形成两64维的特征向量。当字库中符合标准的字形的比例大于设定的阈值后,判定该字库符合标准。为了判定信息处理中使用的字库是否符合国家标准,并实现计算机自动测试,本专利技术提供了基于模式匹配的字库标准符合性自动检测的方法。利用了字库生成的字形信息,通过和国家标准字形进行比对,使用计算机自动判定信息处理中使用的字库对国家标准的符合程度。本方法将检测字库的重点放在了最后生成的字形上,并不关注字库内部的组织、结构和格式,具有良好的通用性且性能良好。通过计算机来进行测试,能够节省大量的人力,提高测试准确度,节省时间。具体实施例方式本方法的具体实施方式是第一步对被测字库输入字符集内的任意码点,生成码点对应字的被测字形。一个字库覆盖了一系列码点,每个码点对应一个确定的字,码点和字是一对一的关系。首先判断被测字库的格式。如果是点阵字库、TrueType字库,则直接输入字形的码点产生被测字形,码点一般是16bit数字。如果是OpenType字库,因为OpenType字库通过内部的GSUB与GPOS表格,可以实现字库中字形的多对一、一对多和多对多的替换与组合,并能够实现复杂的字形定位。所以我们输入字符的码点序列,然后根据GSUB表确定字符的连体字形、叠加字形和组合字形;根据GPOS表确定各个基本字形的相对位置,最后得到字符的字形。第二步,将被测字形存为被测Bitmap文件(Bitmap,位图,亦称为点阵图像或绘制图像,是由称作像素(图片元素)的单个点组成的。这些点可以进行不同的排列和染色以构成图样)。第三,使用国家质量技术监督局制定的标准点阵字形作为标准字形,并据此生成标准Bitmap文件。第四步进行模式匹配,具体包括以下步骤a)对被测Bitmap文件和标准Bitmap文件进行剪裁操作,消除字形周围多余的空白区域。b)对被测Bitmap文件和标准Bitmap文件进行归一化操作,消除标准字形和被测字形在字号大小上的差异,把两幅图形都放缩到相同的尺寸。c)对被测Bitmap文件和标准Bitmap文件进行分块处理,分割归一化后的图象,将图象分割为8×8个小图象。d)对每一块提取特征值,使用Gaussian滤波器(这里用Gabor滤波器的Gaussian包络表示)计算每个小图象的特征值。提取特征值的算法使用Garbor滤波器对该小块上所有象素点进行分析,其中具体过程如公式(1)(2)。G(x,y)=κ2σ2exp=4λ2exp---(1)]]>Fd(xi,yj)=Σx=-Nx=NΣy=-Ny=Nfd(xi+x,yj+y)G(x,y)---(2)]]>在公式(1)(2)中,我们设参数σ=π,κ=2πλ.]]>其中波长λ=8,N=2λ。公式(1)的作用是对矩形中的8×8个元素对应的象素点分配它们的权值。公式(2)使用公式(1)计算出的矩形中每个元素的权值乘以每个元素的实际值(0或1),得出小图象的特征值(即以每个小矩形中心点为采样点,以M1×M2为区域的所有像素点经过Guassian滤波器加权后的和值)。e)求得标准图象和被测图象的特征向量,产生两个64维的特征向量。f)求得标准特征向量和被测特征向量之间的欧式距离,这个距离就代表了被测字形对标准字形的相似度,距离越近相似度越高。如果距离小于设定的阈值,则认为该码点对应的被测字形合格。通过输入字库包含的所有码点,对每个码点生成的字形进行匹配操作,得出被测字库所有字形的合格率,如果合格率大于设定的阈值,则认为被测字库是合格的。权利要求1.一种,其步骤包括1)根据被测字库输入字符集内的码点,生成一被测字形;2)将上述被测字形转化为位形格式;3)根据标准点阵字形生成一对应的标准字形;4)将上述标准字形转化为位形格式;5)对上述两位形格式进行归一化操作,消除标准字形和被测字形的大小差异;6)将上述两位形格式分别进行M1×M2分块,提取每块的特征值,形成两对应的M1×M2维的特征向量,其中M1和M2均为大于1的正整数;7)计算特征向量的欧式距离;8)当特征向量的欧式距离小于设定的阈值时,判定被测字形符合标准。2.如权利要求1所述的,其特征在于对两位形格式进行剪裁操作,消除字形周围多余的空白区域。3.如权利要求1或2所述的,其特征在于使用Garbor滤波器对上述各分块上的所有象素点进行分析,按照下列公式(1)对分块中对应的象素点分配权值,按照公式(2)得出分块的特征值;G(x,y)=&kap本文档来自技高网...

【技术保护点】
一种字库字形标准性的检测方法,其步骤包括:1)根据被测字库输入字符集内的码点,生成一被测字形;2)将上述被测字形转化为位图图形格式;3)根据标准点阵字形生成一对应的标准字形;4)将上述标准字形转化为位图图形格 式;5)对上述两位图图形格式进行归一化操作,消除标准字形和被测字形的大小差异;6)将上述两位图图形格式分别进行M↓[1]×M↓[2]分块,提取每块的特征值,形成两对应的M↓[1]×M↓[2]维的特征向量,其中M↓[1]和M↓ [2]均为大于1的正整数;7)计算特征向量的欧式距离;8)当特征向量的欧式距离小于设定的阈值时,判定被测字形符合标准。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘瀚猛白真龙芮建武吴健
申请(专利权)人:中国科学院软件研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1