一种文字识别的方法和系统技术方案

技术编号:2941103 阅读:169 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种文字识别的方法和系统,首先获取变形图像矫正所需的几何特征参数;在变形图像上等距离绘制网格,并将网格点投影到成像平面;对每一个网格进行四边形变换,获得网格的矫正图像,并将所有网格的矫正图像拼接成最终矫正图像;确定要识别的文字段落区域,对应到最终矫正图像区域进行预处理,切分得到独立文字;对独立文字图像,采用基于灰度的识别算法进行识别。采用了本发明专利技术的技术方案,可以将变形图像复原成为原始状态,然后再进行图像文字提取并实现变形图像的识别。

【技术实现步骤摘要】

本专利技术涉及图像处理
,尤其涉及一种文字识别的方法和系统
技术介绍
目前光学字符识别(OCR)技术已经非常成熟并形成了 一系列的产品,其中中文OCR识别技术己经在生产生活中得到广泛应用,中文印刷体的识别率可以达到98%以上。但是目前的OCR技术只能处理从扫描仪得到的高清晰度图像,从扫描仪获取的图像,是在源文档完全平整的条件下获取的,因此几乎不会存在几何失真,所得图像值可能在角度上存在一定的倾斜,对于这种倾斜的校正处理实际上已经相当成熟,几乎所有针对扫描仪的商业化OCR软件或者文档采集软件都具备相应的功能。一个汉字识别系统大体上可分为输入、预处理、识别、后处理和输出共五个部分。脱机汉字识别系统的对象是印(写)在纸上的文字。它的输入装置可以是扫描仪、传真机、 一般摄像机或数字相机等。这些输入装置通常把印在纸上的图文整页地输入计算机。预处理的主要作用不但要把页面上的图文分开,还必须把所有文字逐个分离。在正常情况下,各行文字的投影之间有一空隙。利用这些间隔可以实现行切割,把各行文字分开。同理把每一行文字向垂直方向投影也可以得到投影图。汉字通常是矩形,彼此间有间隔,因此利用各行的垂直投影进行字切割也不困难。对某一待识字进行识别时, 一般必须将该字按一定准则,与存储在机内的每一个标准汉字模板逐一比较,找出其中最相似的字,作为识别的结果。显然,4汉字集合的字量越大,识别速度越低。为了提高识别速度,常采用树分类,即多级识别方法,先进行粗分类,再进行单字识别。因此识别模块包含粗分类和单字识别两部分。粗分类的作用是把整个汉字集合划分为若干个较小的子集,叫做候选集。有时有的候选集中的字数较多,还可以进行第二次粗分类,使候选集的字数进一步减少。这样的识别方法通常叫做树分类法,它好像是一棵树,整个汉字集合是树根;然后有树干和树枝,最后的树叶就是单字。顺便指出,这种具有多层分类结构的识别方法,对粗分类特征的要求更高,因为如果粗分类错误,影响很大。后处理模块的作用是对单字识别器的输出进行校对、纠错,以提高整个系统的正确识别率。后处理纠错方法可以是人工的,也可以是自动的。通过数码相机采集文档图像,是一个全新的应用领域。与传统的文档图像采集设备——扫描仪相比,数字照相机具有使用灵活,携带方便,不受版面大小限制等优点。但是,现有的方案主要对于来自扫描仪的工整图像和具有一定倾斜角度的图像都可以很好的识别,对于来自数码相机和收集的任意角度拍摄的图像不能还不能识别。主要是视觉变形的图像不能通过传统的预处理进行有效分割,也不能采取简单的二值化方法进行特征提取。直接拍摄得到的文档图像通常会存在一定程度的几何畸变,从而降低文档图像的质量,不利于人们对图像文档的阅读效果,同时也不利于后期进行分析和文字识别。如何将直接拍摄的文档图像进行处理以消除这种几何畸变就成为了一个亟待解决的问题。
技术实现思路
本专利技术的目的在于提出一种文字识别的方法和系统,能够解决几何畸变图像的文字识别问题。5为达此目的,本专利技术采用以下技术方案-一种文字识别的方法,包括以下步骤A、 获取变形图像矫正所需的几何特征参数;B、 在所述变形图像上等距离绘制网格,并将网格点投影到成像平面;C、 对每一个网格进行四边形变换,获得所述网格的矫正图像,并将所有 网格的矫正图像拼接成最终矫正图像;D、 确定要识别的文字段落区域,对应到最终矫正图像区域进行预处理, 切分得到独立文字;E、 对所述独立文字图像,采用基于灰度的识别算法进行识别。步骤A中,所述变形图像矫正所需的几何特征参数包括全局Bezier曲线和消失点。步骤A进一步包括以下步骤获取所述变形图像的水平基线和垂直基线;对所有的垂直基线交点按照交点的权重取加权平均,获得所述变形图像的 垂直方向消失点;对所有的水平基线变换到同一位置,利用所有的水平基线的点同一进行 Bezier曲线拟和,获得一条Bezier准线;使用最小二乘法进行三次Bezier曲线拟和,获得所述变形图像的全局 Bezier曲线。获取所述变形图像的水平基线进一步包括以下步骤对所述变形图像按亮度进行灰度化处理;将灰度图像进行模糊处理;对得到的图像进行二值化,数学形态学独粘连处理,形成互相独立的文本 行连通域;对图像进行连通域分析,计算出上下边缘曲线的平均曲线作为水平基线。使用霍夫变换,从文本行的左右端点中获取所述变形图像的垂直基线。步骤c中,对每一个网格进行四边形变换是通过双线形插值。一种文字识别的系统,包括摄影几何参数提取装置、图像变换装置、文档图像版面分析装置和OCR文字识别装置,其中,摄影几何参数提取装置,用于获取变形图像矫正所需的几何特征参数,并 发给图像变换装置;图像变换装置,用于根据几何特征参数,将变形图像变换为最终矫正图像, 并发给文档图像版面分析装置;文档图像版面分析装置,用于确定要识别的文字段落区域,并发送给0CR 文字识别装置;OCR文字识别装置,用于对图像进行语言判断和识别。采用了本专利技术的技术方案,可以将变形图像复原成为原始状态,然后再进 行图像文字提取并实现变形图像的识别,从而使得数码相机和手机成为有效的 信息采集工具,这样广大群众可以使用自己现有的设备进行信息输入,大大提 高工作效率并避免了设备采购的资源消耗。附图说明图l是本专利技术具体实施方式中文字识别系统的结构示意图; 图2是本专利技术具体实施方式中文字识别的流程图。具体实施例方式下面结合附图并通过具体实施方式来进一步说明本专利技术的技术方案。 本专利技术技术方案的主要思想是从透镜系统的成像几何关系出发,分析了用照相机拍摄时最经常所遇到的两种文档图像几何畸变透视畸变和装订线弯曲畸变的成因。将一般柱面模型抽象为Bezier柱面模型,将非参数模型转化为参 数模型,并利用该几何模型,给出一整套参数估计与图像校正的算法,不仅解 决了对装订线畸变的校正问题,而且可以将透视畸变作为模型的一个特例进行 校正。图1是本专利技术具体实施方式中文字识别系统的结构示意图。如图1所示, 文字识别系统包括摄影几何参数提取装置101、图像变换装置102、文档图像 版面分析装置103和OCR文字识别装置104,其中,摄影几何参数提取装置获 取变形图像矫正所需的几何特征参数,并发给图像变换装置;图像变换装置根 据几何特征参数,将变形图像变换为最终矫正图像,并发给文档图像版面分析 装置;文档图像版面分析装置确定要识别的文字段落区域,并发送给OCR文字 识别装置;OCR文字识别装置对图像进行语言判断和识别。图2是本专利技术具体实施方式中文字识别的流程图。如图2所示,文字识别的 流程包括以下步骤步骤201、用户用数码相机及手机随时随地采集信息,经USB读卡器或经 蓝牙无线传递至计算机。根据摄影几何原理可以证明,只要计算出消失点的位置和任意一条准线的 投影,就可以恢复柱面的形状。步骤202、计算机对接收到的变形图像按亮度进行灰度化处理,并将灰度 图像进行模糊处理。对得到的图像进行二值化,数学形态学独粘连处理,形成 互相独立的文本行连通域。步骤203、对图像进行连通域分析,筛选出宽高比较大的连逋域,计算出 上下边缘曲线的平均曲线作为水平基线。步骤204、使用霍夫变换,从文本行的左右端点中获取变形图像的垂直基 线。也可以采用与获得水平基线类似的方本文档来自技高网
...

【技术保护点】
一种文字识别的方法,其特征在于,包括以下步骤: A、获取变形图像矫正所需的几何特征参数; B、在所述变形图像上等距离绘制网格,并将网格点投影到成像平面; C、对每一个网格进行四边形变换,获得所述网格的矫正图像,并将所有网格 的矫正图像拼接成最终矫正图像; D、确定要识别的文字段落区域,对应到最终矫正图像区域进行预处理,切分得到独立文字; E、对所述独立文字图像,采用基于灰度的识别算法进行识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:张岩于啸
申请(专利权)人:北京文通科技有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1