一种文本图像几何畸变的矫正方法技术

技术编号:6627467 阅读:403 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种文本图像几何畸变的矫正方法包括提取文本图像中水平方向的文本行并利用B样条曲线对其进行拟合,得到文本行曲线;利用文本行曲线的切线会聚对称性估计柱面直母线的灭点、文本行切线会聚线及相机的焦距参数;对拟合的文本行曲线,采用交比插值构造等距网格的纬线;利用文本行曲线的类透视投影变换,估计柱面的准线,构造等距网格的经线;利用图像顶端和底端的文本行曲线,估计得到等距网格的长宽比;通过基于网格的形变技术,将每一个等距网格的网孔映射为一正方形网格,完成文本图像几何畸变的矫正。本发明专利技术解决现有技术无法同时矫正透视失真、非线性形变失真以及二者的复合失真等难题,可实现相机拍摄文本图像几何畸变的完全矫正。

【技术实现步骤摘要】

本专利技术属于数字图像处理和计算机视觉等
,特别涉及一种相机拍摄的文本图像的透视失真和几何畸变的完全矫正技术。
技术介绍
与平板式扫描仪相比,数码相机在文本图像获取上具有许多独特的优点,如携带方便、反应速度快、可从任意角度拍摄文档等。由于这些特点,数码相机在数字图书馆的构建、文献典籍的数字化以及文本识别等领域中获得了广泛应用。然而,由于相机的透视成像原理,拍摄的文本图像中常常存在透视失真等几何形变。此外,在用相机拍摄书籍页面时, 由于页面变形,图像也会产生几何失真。这两种失真常常复合在一起,为后续的文本图像处理,如版面分割、字符识别等带来了诸多困难。为矫正相机拍摄文本图像中的几何失真,人们提出了多种解决方法。这些方法可分为基于局部或全局的图像几何变形技术、基于图像3D深度数据的技术、基于 Shape-from-X的技术以及页面曲面模型化技术等。此外,还有利用从多个视点拍摄的多幅图像来矫正图像的几何失真的技术。下面,我们对这些技术进行一个简单的介绍。图像几何变形技术可分为基于局部的和基于全局的图像几何变形技术。前者首先对文本图像中的单词进行分割,然后将同一文本行上倾斜的单词逐个旋转至一条直线上, 来矫正整条文本行的扭曲变形。后者则试图构建一个全局的图像几何变形函数,利用该函数对图像进行全局变换来矫正图像中的几何畸变。基于局部变换的方法由于变换的局部性,仅能对文本区域的形变进行矫正,而无法矫正非文本区域,如插图、表格等的变形。基于全局变换的方法则能矫正这些非文本区域的变形。该类方法的关键在于如何构造合适的全局形变函数。然而,由于页面曲面3D信息的缺失,基于全局变换的矫正技术无法完全矫正图像中存在的几何畸变失真。这类方法广泛存在限制条件苛刻、矫正残留误差大、仅能适用于特定情形的几何失真等缺点。基于图像3D深度数据的矫正技术首先利用3D扫描仪获取文档页面曲面的3D深度信息,基于这些信息重构页面曲面的3D形状,最后通过一个保角映射和纹理映射将扭曲的图像映射至平面上,来矫正图像的几何扭曲。这类方法通常对图像的几何形变类型不加限制,能够适用于图像中多种类型的几何畸变的矫正。然而,由于额外需要价格昂贵的3D 扫描仪辅助图像矫正,这类方法在实际中并不常用。并且,由于深度数据中几何拓扑关系的缺失,3D页面形状的重构还存在计算量大、数值不稳定等缺点,这些进一步限制的这类方法在实际中的应用。另一种获取页面3D形状信息的方法是借助Siape-from-X技术,其中X代表图像的某种视觉线索,如目标的阴影、轮廓、纹理等。在现有技术中,页面的阴影曲面常用于估计页面的3D形状。这类方法通过分析页面阴影与页面形状之间的约束关系,得到二者所满足的约束方程,求解该方程得到页面的3D曲面。最后利用该曲面完成图像几何畸变的矫正。 该技术对页面阴影要求较高,通常需要特定方向、结构的光照。然而,在实际环境下,由于环境光等其他光源的存在,这一要求难于满足。其他图像视觉线索也常用于文档页面曲面的估计,如文本行,文本矩形块等。使用这些线索估计页面曲面时,往往还需额外添加某种约束,如要求预先知道矫正前后文本行之间的对应关系等。这些条件在实际应用中常常难于满足。页面曲面模型化技术首先假设页面畸变为某特定类型的曲面,如柱面或可展曲面等,利用该假设来约束页面曲面的估计。柱面假设是一种最常用的页面形状假设。为估计柱面模型的参数,该类技术还进一步限定相机拍摄的视角、距离、姿态等,且还需预先知道文档页面的尺寸等额外物理信息。这些苛刻条件为实际应用造成了很多不便。可展曲面假设是另一种常用的页面形状假设。由于文档页面总可以展开至平面上,因此,与柱面假设相比,该假设更具一般性。注意到可展曲面可由逐条平面片很好逼近, 有研究者最新提出采用分片薄板样条曲面来近似可展曲面,用于图像几何畸变的矫正。该技术利用目前成熟的平面透视失真矫正技术,对薄板样条曲面逐片矫正,最后对这些矫正后的结果拼接完成图像的矫正。然而,由于无可避免的估计误差,拼接后的图像中常存在裂缝、重叠等缺陷。这些缺陷大大影响了图像矫正后的视觉效果。此外,由于透视失真与非线性几何形变失真的复合,该技术无法彻底矫正图像中存在的几何畸变,存在矫正残留误差大、算法复杂等缺点。综上所述,现有的文本图像几何畸变矫正技术远未成熟,还无法完全同时矫正图像中存在的透视失真、非线性几何形变失真以及二者的复合等多种类型的失真,仅能针对特定情形,在非常苛刻的前提条件下进行畸变矫正。如何在宽松的前提条件下,完全矫正相机拍摄的文本图像中存在的多种类型的几何畸变,仍然是文本图像处理领域中一个颇具挑战性的难题。
技术实现思路
本专利技术的目的旨在宽松的前提条件下,矫正相机拍摄的文本图像中存在的多种类型的几何畸变,为此提供一种文本图像几何畸变矫正方法。为达成所述目的,本专利技术提供一种文本图像几何畸变矫正方法的步骤包括步骤Sl 提取文本图像中水平方向的文本行,并利用B样条曲线对文本图像中水平方向的文本行进行拟合,得到文本行曲线;步骤S2 利用文本行曲线的切线会聚对称性估计柱面直母线的灭点、文本行切线会聚线及相机的焦距;步骤S3 对拟合的文本行曲线,采用交比插值构造等距网格的纬线;步骤S4:利用文本行曲线的类透视投影变换,估计柱面的准线,从而构造等距网格的经线;步骤S5 利用图像顶端和底端的文本行曲线,估计得到等距网格的长宽比;步骤S6 通过基于网格的形变技术,将每一个等距网格的网孔映射为一正方形网格,完成文本图像几何畸变的矫正。本专利技术的有益效果本专利技术的方法针对相机拍摄的文本图像中存在的几何畸变, 可实现图像中包括透视失真、非线性形变失真及二者的复合失真等多种几何畸变的完全矫正。1)该方法在非常宽松的假设条件下实现图像几何畸变的矫正,完全可满足真实环境下5的各种要求;2)该方法通过分析相机成像机理,及其与页面曲面之间的几何约束关系,构造一个等距图像网格来矫正几何畸变,具有思想直观,理论完善,易于编程等特点,有望实现图像几何畸变的实时矫正;3)该方法仅依赖于图像信息,无需辅助设备和额外引入其他页面物理信息,可实现相机拍摄的文本图像中多种类型几何畸变,包括透视畸变、非线性几何畸变及二者复合畸变等的完全矫正。本专利技术突破了现有技术矫正残存误差大、算法复杂、 适用性差、无法同时矫正透视失真、非线性形变失真以及二者的复合失真等难题,实现了相机拍摄文本图像几何畸变的完全矫正。该方法可应用于数码相机、扫描仪、复印机等多种文本图像采集设备的几何畸变矫正,在书籍资料数字化、数字图书馆构建、珍贵历史文献典籍保护等领域具有广阔的应用前景。附图说明图1是本专利技术方法的总体流程图。图2是文本行曲线的切线会聚对称性示意图。图3a和图北是文本行曲线交比插值示意图。图如和图4b是网格长宽比的计算示意图。图fe至图5c是模拟图像的几何畸变矫正效果图。图6a至图6c是相机真实拍摄的文本图像的几何畸变矫正效果图。具体实施例方式下面结合附图,详细给出该技术所涉及的各个细节问题的说明。图1中给出了本专利技术技术方案的整体流程图。本专利技术针对相机拍摄的文本图像中存在的几何畸变,可实现图像中包括透视失真、非线性形变失真及二者的复合失真等多种几何畸变的完全矫正。该方法同时还提供了一种崭新的曲面形状估计技术本文档来自技高网
...

【技术保护点】
1.一种文本图像几何畸变的矫正方法,包括步骤:步骤S1:提取文本图像中水平方向的文本行,并利用B样条曲线对文本图像中水平方向的文本行进行拟合,得到文本行曲线;步骤S2:利用文本行曲线的切线会聚对称性估计柱面直母线的灭点、文本行切线会聚线及相机的焦距;步骤S3:对拟合的文本行曲线,采用交比插值构造等距网格的纬线;步骤S4:利用文本行曲线的类透视投影变换,估计柱面的准线,从而构造等距网格的经线;步骤S5:利用图像顶端和底端的文本行曲线,估计得到等距网格的长宽比;步骤S6:通过基于网格的形变技术,将每一个等距网格的网孔映射为一正方形网格,完成文本图像几何畸变的矫正。

【技术特征摘要】

【专利技术属性】
技术研发人员:孟高峰潘春洪向世明段江永
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1