从彩色文档图像中提取特定区域的方法和设备技术

技术编号:13864436 阅读:104 留言:0更新日期:2016-10-19 17:45
本发明专利技术公开了从彩色文档图像中提取特定区域的方法和设备。根据本发明专利技术的从彩色文档图像中提取特定区域的方法包括:根据所述彩色文档图像,获得第一边缘图像;利用彩色通道的不均一性,获取二值化图像;合并所述第一边缘图像和所述二值化图像,以得到第二边缘图像;以及根据所述第二边缘图像,确定所述特定区域。根据本发明专利技术的方法和设备,能够以较高的精度和鲁棒性将彩色文档图像中的图片区域、半色调区域、被线框起来的封闭区域与普通文本区域分离。

【技术实现步骤摘要】

本专利技术一般地涉及图像处理领域。具体而言,本专利技术涉及一种能够以较高的精度和鲁棒性从彩色文档图像中提取特定区域的方法和设备
技术介绍
近年来,扫描仪相关的技术取得了飞速的发展。例如,在扫描文档图像的背透检测和去除、文档版面分析、光学字符识别等技术方面,技术人员已经做出许多工作以提高处理效果。然而,仅仅针对这些技术本身进行改进是不够的。如果能够对上述技术的预处理步骤,即扫描文档图像的区域划分,进行改进,则对于扫描文档图像的各种处理的整体效果提升可以起到事半功倍的作用。扫描文档图像由于内容的丰富性,提高了处理的难度。例如,扫描文档图像经常是彩色的、文字与图片混排的,有时还有封闭框。这些区域具有彼此不同的特性,在过去难以用统一的方法进行处理。然而又需要将各种区域精确地、鲁棒地提取出来,以利于提高后级处理的效果。图1示出了彩色扫描文档图像的示例,其中具体的彩色细节将在下文中描述。传统的区域分割提取算法往往针对非常具体问题设计,不具有通用性,所以一旦应用于不同的具体问题,就难以实现高精度和高鲁棒性的区域提取。这显然难以满足区域分割提取方法作为背透检测和去除、文档版面分析、光学字符识别等技术的前处理的需要。因此,期望一种从彩色文档图像尤其是彩色扫描文档图像中提取特定区域的方法和设备,其能够高精度、高鲁棒性地提取彩色文档图像中的特定区域,尤其是图片区域、半色调区域、被线框起来的封闭区域,能够将
这些区域与文字区域相区分。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术的目的是针对现有技术的上述问题,提出了一种能够高精度、高鲁棒性地提取彩色文档图像中的特定区域的方法和设备。为了实现上述目的,根据本专利技术的一个方面,提供了一种从彩色文档图像中提取特定区域的方法,该方法包括:根据所述彩色文档图像,获得第一边缘图像;利用彩色通道的不均一性,获取二值化图像;合并所述第一边缘图像和所述二值化图像,以得到第二边缘图像;以及根据所述第二边缘图像,确定所述特定区域。根据本专利技术的另一个方面,提供了一种从彩色文档图像中提取特定区域的设备,该设备包括:第一边缘图像获取装置,被配置为:根据所述彩色文档图像,获得第一边缘图像;二值化图像获取装置,被配置为:利用彩色通道的不均一性,获取二值化图像;合并装置,被配置为:合并所述第一边缘图像和所述二值化图像,以得到第二边缘图像;以及区域确定装置,被配置为:根据所述第二边缘图像,确定所述特定区域。根据本专利技术的再一方面,提供了一种扫描仪,其包括如上所述的从彩色文档图像中提取特定区域的设备。另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述方法。此外,根据本专利技术的再一方面,还提供了一种程序产品。所述程序产
品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述方法。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:图1示出了彩色文档图像的示例;图2示出了根据本专利技术的实施例的从彩色文档图像中提取特定区域的方法的流程图;图3示出了第一边缘图像的示例;图4示出了二值化图像的示例;图5示出了第二边缘图像的示例;图6示出了第三边缘图像的示例;图7示出了一种确定特定区域的方法的流程图;图8示出了外接矩形围绕区域的示例;图9示出了一种确定特定区域的方法的流程图;图10示出了与所提取的特定区域对应的掩膜图像;图11示出了根据本专利技术实施例的从彩色文档图像中提取特定区域的设备的结构方框图;以及图12示出了可用于实施根据本专利技术实施例的方法和设备的计算机的示意性框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。另外,还需要指出的是,在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。本专利技术的基本思想是结合使用彩色和边缘(如梯度)的信息来从彩色文档图像中提取图片区域、半色调区域、被线框起来的封闭区域等特定区域。本专利技术的方法和设备的输入是彩色文档图像。图1示出了彩色文档图像的示例。其中,左上角的“TOP 3人物”既是封闭框围起来的区域,又是半色调区域。“TOP 3人物”下方的人像既是半色调区域,也是图片区域。人像下方的“人语”及其下方的四段文字既是封闭框围起来的区域,又是半色调区域。右侧中间的“中国普天信息产业集团公司”图片及右下角的五个人物所在的图片既是半色调区域,也是图片区域。左上角的“埃斯内”、中间上方的“新帅普天”、中心附近的“Bechtolsheim”均为彩色文字。其它内容均为白底黑字文字、白色空白、黑色非封闭的线条。本专利技术的目标是提取出“TOP 3人物”、人像、“人语”及其下方的四段文字、“中国普天信息产业集团公司”图片及右下角的五个人物所在的图片所属的区域,与剩余的普通文本区域相区分。其中,彩色文字“埃斯内”、“新
帅普天”、“Bechtolsheim”应归为普通文本区域。从图1可以看出,待处理的图像是复杂的,图像的构成元素丰富多样,特征各异,因此处理难度较大。本专利技术所希望提取的特定区域包括:图片区域、半色调区域、被线框起来的封闭区域中的至少一个区域。如上针对图1所描述的那样,有的区域属于上述三种区域中的一种、或同时属于上述三种区域中的两种或三种。特定区域不包括非图片的、非彩色的、非封闭区域,即使这样的区域的部分边缘存在线条。比如,图1中的人像下方左侧的文本块的左侧和右侧均存在竖线,但是该区域并不封闭,应被判断为普通文本区域。下面将参照图2描述根据本专利技术的实施例的从彩色文档图像中提取特定区域的方法的流程。图2示出了根据本专利技术的实施例的从彩色文档图像中提取特定区域的方法的流程图。如图2所示,根据本专利技术的实施例的从彩色文档图像中提取特定区域的方法包括如下步骤:根据所述彩色文档图像,获得第一边缘图像(步骤S1);利用彩色通道的不均一性,获取二值化图像(步骤S2);合并所述第一边本文档来自技高网
...

【技术保护点】
一种从彩色文档图像中提取特定区域的方法,包括:根据所述彩色文档图像,获得第一边缘图像;利用彩色通道的不均一性,获取二值化图像;合并所述第一边缘图像和所述二值化图像,以得到第二边缘图像;以及根据所述第二边缘图像,确定所述特定区域。

【技术特征摘要】
1.一种从彩色文档图像中提取特定区域的方法,包括:根据所述彩色文档图像,获得第一边缘图像;利用彩色通道的不均一性,获取二值化图像;合并所述第一边缘图像和所述二值化图像,以得到第二边缘图像;以及根据所述第二边缘图像,确定所述特定区域。2.如权利要求1所述的方法,其中,所述特定区域包括:图片区域、半色调区域、被线框起来的封闭区域中的至少一个区域。3.如权利要求1所述的方法,其中利用彩色通道的不均一性,获取二值化图像包括:比较所述彩色文档图像中每一个像素点的R、G、B三通道的差异;根据所述差异是否大于第一差异阈值,确定与该像素点对应的、所述二值化图像中的点的取值。4.如权利要求1所述的方法,其中合并所述第一边缘图像和所述二值化图像,以得到第二边缘图像包括:如果所述第一边缘图像和所述二值化图像中的对应点中的至少一个是特定像素点,则将所述第二边缘图像中的对应点确定为特定像素点。5.如权利要求1所述的方法,其中根据所述第二边缘图像,确定所述特定区域包括:对所述第二边缘图像进行连通域分析,以得到多个候选连通域;获得所述多个候选连通域中尺寸大的候选连通域的外接矩形;将与所述外接矩形围绕的区域对应的、所述彩色文档图像中的区域确定为所述特定区域。6.如权利要求5所述的方法,还包括:提取所述外接矩形内边...

【专利技术属性】
技术研发人员:刘威范伟孙俊
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1