一种印刷体字符图像样本的自动生成方法技术

技术编号:6530552 阅读:364 留言:0更新日期:2012-04-11 18:40
一种印刷体字符图像样本的自动生成方法,它涉及字符图像样本的自动生成方法。本发明专利技术解决了现有的字符采集方法分割精度低,需人工校验,从而造成样本采集速度慢的技术问题。本发明专利技术:将印刷体字符处理成样本字符,设计带有定位区的文档模板,将样本字符输到文档模板的字符区,转换为PDF格式后打印纸质文档,再扫描或照相后,得到实际图像;将PDF格式文档变换为图像,得到理想图像;再从PDF格式文档中抽取字符的位置信息,得到理想图像的字符基准;将理想图像与实际图像配准,建立两幅图像的映射关系,根据射影变换模型将理想图像的字符位置信息映射到实际图像中,将字符图像提取出来,编码保存。本发明专利技术适于任何语种的印刷体字符图像。

【技术实现步骤摘要】

本专利技术涉及字符图像样本的自动生成方法。
技术介绍
印刷体字符的光学字符识别技术已经有了较为广泛的商业应用,但对于低质量或低分辨率的文档图像而言识别率还有待进一步提高。为了提高字符识别的精度,一般需要采集大量的字符图像样本来进行学习。学习样本的好坏往往直接决定了字符识别性能的高低,所以字符样本的采集非常重要。现有的字符采集方法一般是先将文本输入到字符编辑软件中,选择相应的字体和字号,然后打印成纸质文档,接着使用扫描仪转换为图像格式。 为了得到单个字符样本,需要设计一个特别的字符分割算法,一般是利用字符间的间隙作为特征来进行分割。由于扫描的过程中会带来一定的噪声,以及在打印或扫描时由于纸质的放置不当会导致文档出现一定程度的倾斜,所以字符分割结果往往难以达到100%的精度。由于不同字符样本是一种串行的排列,一旦出现一个分割错误,将导致所有后续单元全部出现串位的现象。所以,在样本采集时,分割错误是不能容忍的。为了保证分割的有效性, 一般在自动化分割结束后,还需要人工对分割结果进行校验。如果出现错误,还需要人工进行纠正。显然,字符样本的校验是一个繁琐且枯燥的工作,且人眼容易产生视觉疲劳而导致漏检等现象。对于中文字符识别而言,识别的字符范围从一级国标的3755类开始,后来逐渐扩充到二级国标,字符类别数量增加到6763类,现在常用的GB18030-2000字库,字符类别已经达到了 27533类,以及最新的GB18030-2005字库,字符类别已经达到了 70M4。中文字体也从最初的6种常用字体(宋体、黑体、楷体、隶书、幼圆、仿宋)扩充到现在的数十种。如果考虑字号从一号到小六共12个字号,字体共20种,字符类别为GB18030-2000中的27533 类,则不同的字符样本数量为12X20X27533 = 6607920。如果再考虑不同的扫描分辨率及其它扫描参数,字符样本数量将达到上亿个。如此巨大的样本数量,如果完全人工进行校验,需要耗费大量的时间与精力,且容易出现漏检或误操作。同时,随着基于照相机的字符识别技术的发展,传统的基于扫描仪的字符样本并不是最恰当的学习样本,最好是直接基于照相机来采集字符样本,这样更有针对性。由于照相机得到的文档会存在透视变形,所以给自动化的文档字符分割带来了更大的难度。如何提取照相机得到的字符样本也成为了一个非常迫切的问题。可见,一个具有100 %分割精度的快速字符分割算法是值得期待的,这样可以免去人工的校验步骤,大大提高字符样本的采集速度与效率。该方法适用于任何语种的印刷体字符图像样本的生成。
技术实现思路
本专利技术是要解决现有的字符采集方法分割精度低,需进行人工校验,从而造成的样本采集的速度慢的技术问题,而提供。本专利技术的按以下步骤进行步骤一将印刷体字符输入到一个文本文件index, txt中,相邻两个字符之间插入一个空格,得到样本字符;步骤二在字符编辑软件中设计一个文档模板,并把文档模板区域内距四周边缘 Icm 1. 5cm的位置设置“矩形框状”定位区,定位区的框的宽度为0. 9cm 1. 2cm,在定位区内散布放置η个字号为m个points的定位块‘·’,其中η至少为4个,m的范围为 12points ^points,再在定位区所包围的区域的上部划出来字符区,在定位区所包围的区域的下部划出来标题区,其中字符区和标题区相距0. 5cm 1. 0cm,字符区与定位区相距 0. 5cm 1. 0cm,标题区与定位区相距0. 5cm 1. 0cm,将步骤一所述的样本字符输入到字符区,将标明样本字符内容特性的标识输入到标题区,得到文档Dl ;步骤三将文档Dl转换为PDF格式的文档D2 ;步骤四将D2打印成纸质文档,用扫描仪扫描或照相机照相,得到图像格式的文档D3,其中扫描时采用的分辨率为g个dpi ;步骤五从步骤三所述的文档D2中提取每个字符的外接矩形框的四个角点的位置坐标信息作为字符的坐标位置信息,从文档D2中提取每个定位块‘·’的外接矩形框的四个角点的位置坐标信息作为定位块‘·’的坐标位置信息,从文档D2中提取每个字符和定位块‘·’的ASCII码信息,再把字符的坐标位置信息、定位块‘·’的坐标位置信息、字符的ASCII码信息和定位块‘眷’的ASCII码信息用XML格式进行保存,得到文档D4 ;步骤六将步骤二所述的文档D2转换为图像格式,得到文档D5 ;步骤七将步骤四所述的文档D3进行二值化,得到二值化图像D6 ;步骤八在步骤七所述的图像D6中检测定位块‘·’,提取定位块‘·,的质心 Qi (χι Yi)、q2 ( ' y2)、Q3(χ3' y3)......qn(xn' yn);步骤九根据步骤五所述的文档D4计算出定位块‘·’的质心Pl(Ul,Vl)、p2(u2,V2)、Fl3 (U3,V3)......Pn (Un, Vn);步骤十将质心CI1(X^y1)与 P1 (U1, V1)对应,q20c2,y2)与 P2 (U2,V2)对应、q3 O^y3)% P3(u3,v3)对应.......qn(xn,yn) %Pn(un,vn)对应,作为射影变换模型的对应特征点代入到该射影变换模型中,求出射影变换模型的参数%、bp Cl、a2、b2、c2, a3和b3,得到射影变换、、1f CilUi + ^1Vi + C1、模型;其中该射影变换模型为1 =-;γ 7,其中i = l、2、3、Ct3Ui + B3V1 + 1 \d2ui + + C2步骤十一根据步骤十所得的射影变换模型,将步骤六所述的文档D5中的所有字符单元位置坐标映射到图像D6中,然后保存为XML标引文档D7 ;步骤十二 基于标引文档D7,得到文档中所有的字符样本图像,并进行编码与保存,然后建立字符与文件名的索引表,完成印刷体字符图像样本的自动生成过程。本专利技术将所有需要制作样本的字符ASCII码编辑为一个电子文档,通过设置不同的字体、字号即可获得不同类型的样本来源,然后将文档打印、扫描或照相,即可得到图像格式样本文档;为了将文档中的字符自动进行分割,本专利技术采用了将实际图像文档与通过电子化文档合成的图像文档进行配准,这两种文档之间的变换可近似看成为一个射影变换过程,在字符样本文档设计时,在文档四周加入了多个定位标记块,所以在配准时,需先将两幅图像中的定位块检测到,然后将定位块的重心作为对应的特征点,从而估计出射影变换模型中所有的参数,然后基于该射影变换模型,将合成图像中字符的坐标变换到实际文档图像中,从而得到了实际文档中每个字符单元的坐标信息,实现了基于模板的字符的精确配准与分割。字符样本的坐标偏差不超过1个像素。由于电子文档中字符外接矩形框与实际字符之间一般都有1个像素以上的空白边缘,所以基于该专利技术,字符图像样本可以毫无残缺的被采集到。此外,现有的字符样本编码方法往往只包含了字符的图像宽度、高度及图像数据等信息,这主要是由于以前的字符训练方法只需要这些信息就足够了,不同的字符样本可以通过文件名来进行区分,且将文件名与字符ASCII码建立索引即可。目前字符识别追求的目标是全字体全字号识别,但随着类别数量越来越大,实际图像的质量也是千差万别,所以识别精度难以达到很高的精度,特别是低质量文档图像。为了提高识别精度,本专利技术可以根本文档来自技高网
...

【技术保护点】
1.一种印刷体字符图像样本的自动生成方法,其特征在于印刷体字符图像样本的自动生成方法按以下步骤进行:步骤一:将印刷体字符输入到一个文本文件index.txt中,相邻两个字符之间插入一个空格,得到样本字符;步骤二:在字符编辑软件中设计一个文档模板,并把文档模板区域内距四周边缘1cm~1.5cm的位置设置“矩形框状”定位区(1),定位区(1)的框的宽度为0.9cm~1.2cm,在定位区(1)内散布放置n个字号为m个points的定位块‘●’(2),其中n至少为4个,m的范围为12points~28points,再在定位区1所包围的区域的上部划出来字符区(3),在定位区(1)所包围的区域的下部划出来标题区(4),其中字符区(3)和标题区(4)相距0.5cm~1.0cm,字符区(3)与定位区(1)相距0.5cm~1.0cm,标题区(4)与定位区(1)相距0.5cm~1.0cm,将步骤一所述的样本字符输入到字符区(3),将标明样本字符内容特性的标识输入到标题区(4),得到文档D1;步骤三:将文档D1转换为PDF格式的文档D2;步骤四:将D2打印成纸质文档,用扫描仪扫描或照相机照相,得到图像格式的文档D3,其中扫描时采用的分辨率为g个dpi;步骤五:从步骤三所述的文档D2中提取每个字符的外接矩形框的四个角点的位置坐标信息作为字符的坐标位置信息,从文档D2中提取每个定位块‘●’(2)的外接矩形框的四个角点的位置坐标信息作为定位块‘●’(2)的坐标位置信息,从文档D2中提取每个字符和定位块‘●’(2)的ASCII码信息,再把字符的坐标位置信息、定位块‘●’(2)的坐标位置信息、字符的ASCII码信息和定位块‘●’(2)的ASCII码信息用XML格式进行保存,得到文档D4;步骤六:将步骤二所述的文档D2转换为图像格式,得到文档D5;步骤七:将步骤四所述的文档D3进行二值化,得到二值化图像D6;步骤八:在步骤七所述的图像D6中检测定位块‘●’(2),提取定位块‘●’的质心q1(x1,y1)、q2(x2,y2)、q3(x3,y3)......qn(xn,yn);步骤九:根据步骤五所述的文档D4计算出定位块‘●’(2)的质心p1(u1,v1)、p2(u2,v2)、p3(u3,v3)......pn(un,vn);步骤十:将质心q1(x1,y1)与p1(u1,v1)对应,q2(x2,y2)与p2(u2,v2)对应、q3(x3,y3)与p3(u3,v3)对应......qn(xn,yn)与pn(un,vn)对应,作为射影变换模型的对应特征点代入到该射影变换模型中,求出射影变换模型的参数a1、b1、c1、a2、b2、c2、a3和b3,得到射影变换模型;其中该射影变换模型为其中i=1、2、3、......、n;步骤十一:根据步骤十所得的射影变换模型,将步骤六所述的文档D5中的所有字符单元位置坐标映射到图像D6中,然后保存为XML标引文档D7;步骤十二:基于标引文档D7,得到文档中所有的字符样本图像,并进行编码与保存,然后建立字符与文件名的索引表,完成印刷体字符图像样本的自动生成过程。...

【技术特征摘要】
1. 一种印刷体字符图像样本的自动生成方法,其特征在于印刷体字符图像样本的自动生成方法按以下步骤进行步骤一将印刷体字符输入到一个文本文件index, txt中,相邻两个字符之间插入一个空格,得到样本字符;步骤二在字符编辑软件中设计一个文档模板,并把文档模板区域内距四周边缘 Icm 1.5cm的位置设置“矩形框状”定位区(1),定位区(1)的框的宽度为0. 9cm 1.2cm, 在定位区(1)内散布放置η个字号为m个points的定位块‘ ’ 0),其中η至少为4个, m的范围为12p0intS ^p0intS,再在定位区1所包围的区域的上部划出来字符区(3), 在定位区(1)所包围的区域的下部划出来标题区G),其中字符区(3)和标题区(4)相距 0. 5cm 1. 0cm,字符区(3)与定位区(1)相距0. 5cm 1. 0cm,标题区(4)与定位区(1)相距0. 5cm 1. 0cm,将步骤一所述的样本字符输入到字符区(3),将标明样本字符内容特性的标识输入到标题区G),得到文档Dl ;步骤三将文档Dl转换为PDF格式的文档D2 ;步骤四将D2打印成纸质文档,用扫描仪扫描或照相机照相,得到图像格式的文档D3, 其中扫描时采用的分辨率为g个dpi ;步骤五从步骤三所述的文档D2中提取每个字符的外接矩形框的四个角点的位置坐标信息作为字符的坐标位置信息,从文档D2中提取每个定位块‘眷’ (2)的外接矩形框的四个角点的位置坐标信息作为定位块‘·’ (2)的坐标位置信息,从文档D2中提取每个字符和定位块‘·’(2)的ASCII码信息,再把字符的坐标位置信息、定位块‘ ’⑵的坐标位置信息、字符的ASCII码信息和定位块‘眷’(2)的ASCII码信息用XML格式进行保存,得到文档D4;步骤六将步骤二所述的文档D2转换为图像格式,得到文档D5 ;步骤七将步骤四所述的文档D3进行二值化,得到二值化图像D6 ;步骤八在步骤七所述的图像D6中检测定位块...

【专利技术属性】
技术研发人员:夏勇王宽全左旺孟黎捷
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:93

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1