【技术实现步骤摘要】
本专利技术一般地涉及图像处理。更具体地说,本专利技术涉及从具有复杂背景的文档图像中提取文本的装置、从具有复杂背景的文档图像中提取文本的方法、计算机程序及其存储介质。
技术介绍
文本提取对于许多应用来说是非常重要的一步,例如光学字符识别(OCR)、基于文本的视频检索、文档图像压缩等等。大多数当前的技术都针对从具有简单背景的图像中提取文本。近年来,从复杂背景图像中提取文本的技术在越来越多的领域变得非常急需,例如复杂文档分析、工程图分析等等。但是,从具有复杂背景的文档图像中提取文本非常困难。虽然已经提出了许多方法,但是大部分仅对于简单图像或不是特别复杂的图像有效。 现有的文本提取方法可以分为两大类,即基于色彩聚类的方法(Color-clustering based method)和基于边缘分析的方法。 基于色彩聚类的方法假定文本具有均一的前景颜色。但是,情况并不总是这样,尤其是对于小字符。例如,文本字符可能用不同的颜色进行印刷,而且图像也可能是在不均匀的照明条件下捕获的。对于较小的文字,前景颜色基本上总是不均一的,这是因为与笔划宽度相比过渡区域太大。相应地,对于整个图像来说很难获得恰当的全局二值化阈值,由此几乎不可能消除所有的具有不均匀颜色的色彩光背景。 另一方面,基于边缘分析的方法假定文本与背景之间的对比度足够大。但是在具有复杂背景的图像中,非文本图像也可能与背景之间具有很大的对比度,这将导致边缘检测处理之后文本边缘和非文本边缘彼此接触相连。由此,常常给边缘分析带来困难或导致不稳定的结果。 例如,日本专利申请公开文本No.JP-A-2000-207 ...
【技术保护点】
一种从具有复杂背景的文档图像中提取文本的方法,包括步骤:第一边缘提取步骤,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索步骤,用于从所述提取的边缘中搜索连通的边缘;以及第二边缘提取步骤,用于在所述搜索 的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。
【技术特征摘要】
1.一种从具有复杂背景的文档图像中提取文本的方法,包括步骤第一边缘提取步骤,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索步骤,用于从所述提取的边缘中搜索连通的边缘;以及第二边缘提取步骤,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。2.根据权利要求1所述的从具有复杂背景的文档图像中提取文本的方法,其中在所述搜索的连通边缘的像素数小于或等于所述预定数目时,第二边缘提取步骤确定所述搜索的连通边缘是文本边缘。3.根据权利要求1所述的从具有复杂背景的文档图像中提取文本的方法,其中在所述搜索的连通边缘的像素数大于所述预定数目时,第二边缘提取步骤仅从所述连通边缘中提取具有比第二对比度阈值高的对比度的边缘。4.根据权利要求1所述的从具有复杂背景的文档图像中提取文本的方法,其中在覆盖所述连通边缘的区域的像素数大于所述预定数目时,第二边缘提取步骤从所述区域中提取具有比第二对比度阈值高的对比度的边缘。5.根据权利要求2所述的从具有复杂背景的文档图像中提取文本的方法,还包括步骤第二连通边缘搜索步骤,用于从所述第二边缘提取步骤所提取的边缘中搜索连通边缘;以及第三边缘提取步骤,用于在所述搜索的连通边缘的像素数大于所述预定数目时,提取具有比第三对比度阈值高的对比度的边缘;其中所述第三对比度阈值比所述第二对比度阈值大。6.根据权利要求1所述的从具有复杂背景的文档图像中提取文本的方法,还包括步骤边缘分类步骤,用于根据下式将边缘分成“正边缘”和“负边缘”两种类型, 其中P0是当前边缘像素的灰度等级,Pneighbor是其N个相邻像素的灰度等级;以及边缘去除步骤,用于在覆盖由相同类型的边缘构成的连通边缘的区域的像素数大于预定阈值的情况下,将覆盖所述连通边缘的区域作为背景去除。7.根据权利要求1所述的从具有复杂背景的文档图像中提取文本的方法,还包括文本图标记步骤,用于从所提取的边缘中标记出文本,其中将覆盖连通边缘的区域的前景像素标记为“正常文本”,将覆盖反转连通边缘的区域的前景像素标记为“反转文本”,并将剩余像素标记为“背景”。8.根据权利要求7所述的从具有复杂背景的文档图像中提取文本的方法,还包括搜索由具有相同标记的像素所形成的文本区域并将其形成文本行的步骤。9.一种从具有复杂背景的文档图像中提取文本的方法,包括步骤调整步骤,用于调整对比度阈值;文本区域确定步骤,用于根据所述调整的对比度阈值确定文本区域;其中所述调整步骤包括目标区域确定步骤,用于从目标区域中提取具有比所述对比度阈值高的对比度的边缘、从所述提取的边缘中搜索连通的边缘、以及确定覆盖所述搜索的连通边缘的区域是否是新的目标区域;其中所述调整步骤在所述确定的新目标区域大于预定尺寸时加大所述对比度阈值,并且在所述确定的新目标区域小于或等于所述预定尺寸时结束调整所述对比度阈值;以及其中所述文本区域确定步骤确定相应于调整已经结束的对比度阈值的目标区域为文本区域。10.根据权利要求9所述的从具有复杂背景的文档图像中提取文本的方法,还包括步骤边缘分类步骤,用于根据下式将边缘分成“正边缘”和“负边缘”两种类型, 其中P0是当前边缘像素的灰度等级,Pneighbor是其N个相邻像素的灰度等级;以及边缘去除步骤,用于在覆盖由相同类型的边缘构成的连通边缘的区域的像素数大于预定阈值的情况下,将覆盖所述连通边缘的区域作为背景去除。11.根据权利要求10所述的从具有复杂背景的文档图像中提取文本的方法,还包括步骤不区分负边缘和正边缘而搜索覆盖由两种类型的边缘构成的连通边缘的区域;如果不区分负边缘和正边缘所搜索的覆盖由两种类型的边缘构成的连通边缘的区域的像素数大于第二预定阈值,则重计算其像素数大于第二预定阈值的搜索区域局部边缘;以及根据重计算的局部边缘去除复杂背景的干扰。12.根据权利要求11所述的从具有复杂背景的文档图像中提取文本的方法,其中重计算局部边缘的步骤包括步骤将二值化阈值增加预订值;以及通过使用增加后的二值化预定阈值二值化其像素数大于第二预定阈值的搜索区域周围的梯度块。13.根据权利要求9所述的从具有复杂背景的文档图像中提取文本的方法,还包括文本图标记步骤,用于从所提取的边缘中标记出文本,其中将覆盖连通边缘的区域的前景像素标记为“正常文本”,将覆盖反转连通边缘的区域的前景像素标记为“反转文本”,并将剩余像素标记为“背景”。14.根据权利要求13所述的从具有复杂背景的文档图像中提取文本的方法,还包括搜索由具有相同标记的像素所形成的文本区域并将其形成文本行的步骤。15.一种从具有复杂背景的文档图像中提取文本的装置,包括第一边缘提取部件,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索部件,用于从所述提取的边缘中搜索连通的边缘;以及第二边缘提取部件,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。16.根据权利要求15所述的从具有复杂背景的文档图像中提取文本的装置,其中在所述搜索的连通边缘的像素数小于或等于所述预定数目时,第二边缘提取部件确定所述搜索的连通边缘是文本边缘。17.根据权利要求15所述的从具有复杂背景的文档图像中提取文本的装置,其中在所述搜索的连通边缘的像素数大于所述预定数目时,第二边缘提取部件仅从所述连通边缘中提取具有比第二对比度阈值高的对比度的边缘。18.根据权利要求15所述的从具有复杂背景的文档图像中提取文本的装置,其中在覆...
【专利技术属性】
技术研发人员:王艳清,游亚平,杜尚锋,
申请(专利权)人:佳能株式会社,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。