从复杂背景文档图像提取文本的装置、方法制造方法及图纸

技术编号:2928465 阅读:201 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种从具有复杂背景的文档图像中提取文本的装置、方法、计算机程序及其存储介质。根据本发明专利技术的从具有复杂背景的文档图像中提取文本的优选方法包括步骤:第一边缘提取步骤,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索步骤,用于从所述提取的边缘中搜索连通的边缘;以及第二边缘提取步骤,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。

【技术实现步骤摘要】

本专利技术一般地涉及图像处理。更具体地说,本专利技术涉及从具有复杂背景的文档图像中提取文本的装置、从具有复杂背景的文档图像中提取文本的方法、计算机程序及其存储介质。
技术介绍
文本提取对于许多应用来说是非常重要的一步,例如光学字符识别(OCR)、基于文本的视频检索、文档图像压缩等等。大多数当前的技术都针对从具有简单背景的图像中提取文本。近年来,从复杂背景图像中提取文本的技术在越来越多的领域变得非常急需,例如复杂文档分析、工程图分析等等。但是,从具有复杂背景的文档图像中提取文本非常困难。虽然已经提出了许多方法,但是大部分仅对于简单图像或不是特别复杂的图像有效。 现有的文本提取方法可以分为两大类,即基于色彩聚类的方法(Color-clustering based method)和基于边缘分析的方法。 基于色彩聚类的方法假定文本具有均一的前景颜色。但是,情况并不总是这样,尤其是对于小字符。例如,文本字符可能用不同的颜色进行印刷,而且图像也可能是在不均匀的照明条件下捕获的。对于较小的文字,前景颜色基本上总是不均一的,这是因为与笔划宽度相比过渡区域太大。相应地,对于整个图像来说很难获得恰当的全局二值化阈值,由此几乎不可能消除所有的具有不均匀颜色的色彩光背景。 另一方面,基于边缘分析的方法假定文本与背景之间的对比度足够大。但是在具有复杂背景的图像中,非文本图像也可能与背景之间具有很大的对比度,这将导致边缘检测处理之后文本边缘和非文本边缘彼此接触相连。由此,常常给边缘分析带来困难或导致不稳定的结果。 例如,日本专利申请公开文本No.JP-A-2000-20714公开了一种图像处理方法、及其装置和存储图像处理功能的记录介质。 图10示出了上述日本专利申请公开文本No.JP-A-2000-20714所公开的图像处理方法的流程图。 为了获得即使在背景图像上也不具有影响识别的噪音的二值图像,将要进行阈值处理的原始图像的灰度图像在步骤S101中输入,并在步骤S102中存储。而后,在步骤S103中,关注特定的像素,并且判断所述像素是否是一个字符的边缘或者是否是格线(ruledline)。此后,在步骤S104,确定并存储被判断为边缘的像素在二值图像上的像素值。在步骤S105对原始图像上的所有像素重复这些操作并且在步骤S106找到非边缘的像素的所有连通区域(connectioncomponent)。而后,在步骤S107,关注与某一连通区域的外围接触的并且已经具有确定的像素值的像素,并且分别计算黑色像素的数量和白色像素的数量。在步骤S108中互相比较黑色和白色像素的数量,并且当黑色像素的数量更大,则在步骤S110登记整个连通区域为黑色像素。在另一种情况下,则在S109登记整个连通区域为白色像素。在步骤S111,为所有连通区域重复上述操作,并且最后在步骤S112生成二值图像,并在步骤S113输出该二值图像。 根据上述方法,能够从二值化边缘图中识别和去除出现在背景中由连通区域形成的长线条。但是,在二值化之后的边缘图中,彼此靠近的文本行(text row)也由可能形成长连通区域。在这种情况下,根据上面所述的方法,将文本从靠近的文本行中分离出来并不容易,并且有可能将整个靠近的文本行当作背景而被忽略。然而这些文本行却恰恰是需要的并且不应该仅仅是简单的去除。因此,如果采用现有技术中上面描述的这些方法对具有复杂背景的扫描文档图像进行二值化和处理,则有可能丢失有用的文本。
技术实现思路
有鉴于此,本专利技术的目的是提供一种从具有复杂背景的文档图像中提取文本的装置、一种从具有复杂背景的文档图像中提取文本的方法、计算机程序及其存储介质,以便克服现有技术中存在的上述缺陷。 为了实现上述目的,根据本专利技术的一个方面,提供一种从具有复杂背景的文档图像中提取文本的方法,包括步骤第一边缘提取步骤,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索步骤,用于从所述提取的边缘中搜索连通的边缘;第二边缘提取步骤,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。 为了实现上述目的,根据本专利技术的另一方面,提供一种从具有复杂背景的文档图像中提取文本的方法,包括步骤调整步骤,用于调整对比度阈值;文本区域确定步骤,用于根据所述调整的对比度阈值确定文本区域;其中所述调整步骤包括目标区域确定步骤,用于从目标区域中提取具有比所述对比度阈值高的对比度的边缘、从所述提取的边缘中搜索连通的边缘、以及确定覆盖所述搜索的连通边缘的区域是否是新的目标区域;其中所述调整步骤在所述确定的新目标区域大于预定尺寸时加大所述对比度阈值,并且在所述确定的新目标区域小于或等于所述预定尺寸时结束调整所述对比度阈值;以及其中所述文本区域确定步骤确定相应于调整已经结束的对比度阈值的目标区域为文本区域。 为了实现上述目的,根据本专利技术的再一方面,提供一种从具有复杂背景的文档图像中提取文本的装置,包括第一边缘提取部件,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索部件,用于从所述提取的边缘中搜索连通的边缘;第二边缘提取部件,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。 为了实现上述目的,根据本专利技术的又一方面,提供一种从具有复杂背景的文档图像中提取文本的装置,包括调整部件,用于调整对比度阈值;文本区域确定部件,用于根据所述调整的对比度阈值确定文本区域;其中所述调整部件包括目标区域确定部件,用于从目标区域中提取具有比所述对比度阈值高的对比度的边缘、从所述提取的边缘中搜索连通的边缘、以及确定覆盖所述搜索的连通边缘的区域是否是新的目标区域;其中所述调整部件在所述确定的新目标区域大于预定尺寸时加大所述对比度阈值,并且在所述确定的新目标区域小于或等于所述预定尺寸时结束调整所述对比度阈值;以及其中所述文本区域确定部件确定相应于调整已经结束的对比度阈值的目标区域为文本区域。 为了实现上述目的,根据本专利技术的再一方面,提供一种从具有复杂背景的文档图像中提取文本的装置,包括边缘图计算单元,用于计算文档图像的边缘图;长背景连通边缘去除单元,用于将边缘图计算单元所计算的边缘图中的边缘分成“正边缘”和“负边缘”两类、搜索由相同类型的边缘构成的连通边缘、以及去除比预定阈值长的由相同类型的边缘构成的连通边缘;边缘图重计算单元,用于在由相同类型的边缘构成的长连通边缘已经被长背景连通边缘去除单元去除的边缘图中搜索由两类边缘构成的连通边缘、并针对比第二预定阈值长的由两类边缘构成的连通边缘的边界框重计算局部边缘图;文本图标记单元,用于将连通边缘划分为三种类型“正常文本”、“反转文本”和“背景”并生成标记图,其中将“正常文本”连通边缘的前景像素标记为“正常文本”,将“反转文本”连通边缘的前景像素标记为“反转文本”,以及将剩余像素标记为“背景”;以及文本连通边缘搜索和合并单元,用于搜索文本图标记单元所生成的标记图上由具有相同标记的像素形成的连通边缘并将该连通边缘形成文本行。 另外,本专利技术还提供用于实施上述从具有复杂背景的文档图像中提本文档来自技高网
...

【技术保护点】
一种从具有复杂背景的文档图像中提取文本的方法,包括步骤:第一边缘提取步骤,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索步骤,用于从所述提取的边缘中搜索连通的边缘;以及第二边缘提取步骤,用于在所述搜索 的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。

【技术特征摘要】
1.一种从具有复杂背景的文档图像中提取文本的方法,包括步骤第一边缘提取步骤,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索步骤,用于从所述提取的边缘中搜索连通的边缘;以及第二边缘提取步骤,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。2.根据权利要求1所述的从具有复杂背景的文档图像中提取文本的方法,其中在所述搜索的连通边缘的像素数小于或等于所述预定数目时,第二边缘提取步骤确定所述搜索的连通边缘是文本边缘。3.根据权利要求1所述的从具有复杂背景的文档图像中提取文本的方法,其中在所述搜索的连通边缘的像素数大于所述预定数目时,第二边缘提取步骤仅从所述连通边缘中提取具有比第二对比度阈值高的对比度的边缘。4.根据权利要求1所述的从具有复杂背景的文档图像中提取文本的方法,其中在覆盖所述连通边缘的区域的像素数大于所述预定数目时,第二边缘提取步骤从所述区域中提取具有比第二对比度阈值高的对比度的边缘。5.根据权利要求2所述的从具有复杂背景的文档图像中提取文本的方法,还包括步骤第二连通边缘搜索步骤,用于从所述第二边缘提取步骤所提取的边缘中搜索连通边缘;以及第三边缘提取步骤,用于在所述搜索的连通边缘的像素数大于所述预定数目时,提取具有比第三对比度阈值高的对比度的边缘;其中所述第三对比度阈值比所述第二对比度阈值大。6.根据权利要求1所述的从具有复杂背景的文档图像中提取文本的方法,还包括步骤边缘分类步骤,用于根据下式将边缘分成“正边缘”和“负边缘”两种类型, 其中P0是当前边缘像素的灰度等级,Pneighbor是其N个相邻像素的灰度等级;以及边缘去除步骤,用于在覆盖由相同类型的边缘构成的连通边缘的区域的像素数大于预定阈值的情况下,将覆盖所述连通边缘的区域作为背景去除。7.根据权利要求1所述的从具有复杂背景的文档图像中提取文本的方法,还包括文本图标记步骤,用于从所提取的边缘中标记出文本,其中将覆盖连通边缘的区域的前景像素标记为“正常文本”,将覆盖反转连通边缘的区域的前景像素标记为“反转文本”,并将剩余像素标记为“背景”。8.根据权利要求7所述的从具有复杂背景的文档图像中提取文本的方法,还包括搜索由具有相同标记的像素所形成的文本区域并将其形成文本行的步骤。9.一种从具有复杂背景的文档图像中提取文本的方法,包括步骤调整步骤,用于调整对比度阈值;文本区域确定步骤,用于根据所述调整的对比度阈值确定文本区域;其中所述调整步骤包括目标区域确定步骤,用于从目标区域中提取具有比所述对比度阈值高的对比度的边缘、从所述提取的边缘中搜索连通的边缘、以及确定覆盖所述搜索的连通边缘的区域是否是新的目标区域;其中所述调整步骤在所述确定的新目标区域大于预定尺寸时加大所述对比度阈值,并且在所述确定的新目标区域小于或等于所述预定尺寸时结束调整所述对比度阈值;以及其中所述文本区域确定步骤确定相应于调整已经结束的对比度阈值的目标区域为文本区域。10.根据权利要求9所述的从具有复杂背景的文档图像中提取文本的方法,还包括步骤边缘分类步骤,用于根据下式将边缘分成“正边缘”和“负边缘”两种类型, 其中P0是当前边缘像素的灰度等级,Pneighbor是其N个相邻像素的灰度等级;以及边缘去除步骤,用于在覆盖由相同类型的边缘构成的连通边缘的区域的像素数大于预定阈值的情况下,将覆盖所述连通边缘的区域作为背景去除。11.根据权利要求10所述的从具有复杂背景的文档图像中提取文本的方法,还包括步骤不区分负边缘和正边缘而搜索覆盖由两种类型的边缘构成的连通边缘的区域;如果不区分负边缘和正边缘所搜索的覆盖由两种类型的边缘构成的连通边缘的区域的像素数大于第二预定阈值,则重计算其像素数大于第二预定阈值的搜索区域局部边缘;以及根据重计算的局部边缘去除复杂背景的干扰。12.根据权利要求11所述的从具有复杂背景的文档图像中提取文本的方法,其中重计算局部边缘的步骤包括步骤将二值化阈值增加预订值;以及通过使用增加后的二值化预定阈值二值化其像素数大于第二预定阈值的搜索区域周围的梯度块。13.根据权利要求9所述的从具有复杂背景的文档图像中提取文本的方法,还包括文本图标记步骤,用于从所提取的边缘中标记出文本,其中将覆盖连通边缘的区域的前景像素标记为“正常文本”,将覆盖反转连通边缘的区域的前景像素标记为“反转文本”,并将剩余像素标记为“背景”。14.根据权利要求13所述的从具有复杂背景的文档图像中提取文本的方法,还包括搜索由具有相同标记的像素所形成的文本区域并将其形成文本行的步骤。15.一种从具有复杂背景的文档图像中提取文本的装置,包括第一边缘提取部件,用于从所述图像中提取具有比第一对比度阈值高的对比度的边缘;搜索部件,用于从所述提取的边缘中搜索连通的边缘;以及第二边缘提取部件,用于在所述搜索的连通边缘的像素数大于预定数目时,提取具有比第二对比度阈值高的对比度的边缘;其中所述第二对比度阈值比所述第一对比度阈值大。16.根据权利要求15所述的从具有复杂背景的文档图像中提取文本的装置,其中在所述搜索的连通边缘的像素数小于或等于所述预定数目时,第二边缘提取部件确定所述搜索的连通边缘是文本边缘。17.根据权利要求15所述的从具有复杂背景的文档图像中提取文本的装置,其中在所述搜索的连通边缘的像素数大于所述预定数目时,第二边缘提取部件仅从所述连通边缘中提取具有比第二对比度阈值高的对比度的边缘。18.根据权利要求15所述的从具有复杂背景的文档图像中提取文本的装置,其中在覆...

【专利技术属性】
技术研发人员:王艳清游亚平杜尚锋
申请(专利权)人:佳能株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1