扫描文件的多色彩舍去制造技术

技术编号:4493745 阅读:179 留言:0更新日期:2012-04-11 18:40
一种用于通过将图像分割成两个或者更多方块(14)而从所扫描的文件中移除非所需表格色彩内容的方法。每个方块(14)根据其背景与色彩内容的组合而分类成至少第一和第二集。根据第一方块(14)集来识别背景色彩。根据第二方块集识别至少一个表格色彩。应用使表格色彩图像数据值偏移到背景色彩数据值的变换。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术一般地涉及扫描文件图像的图像处理,并且更特别地涉及用 于从图像中识别并移除色彩内容的方法。
技术介绍
在制造扫描环境中,扫描文件可具有与来自该文件的所需数据无关 的色彩内容。例如,预先印刷的申请表、税务表和其它文件可包含表格 色彩区域,包括印刷的指令、线、方框或者将文件用户指引到需要人工 录入的范围的符号,其中所录入的信息典型地采用铅笔或者深色墨水。 许多类型的预先印刷的表格使用预先印刷的位置标记以用于字符录入, 从而将所录入的字符或其它标记限于特定的位置和大小。这种位置标记识(OCR)扫描。出于清楚说明的目的,本申请使用术语"表格色彩"来识别可以从 扫描表格或其它文件的扫描图像数据中忽略和"舍去"的色彩内容。表 格色彩是非中性的,从而对应于表格色彩的红色(R)、绿色(G)和蓝 色(B)数据值互不相同。在扫描表格或其它文件上感兴趣的数据是深 色中性数据,在本申请中以术语"中性色数据,,表示。中性色数据表示 任何用户录入的文本标记(例如那些可能已经用钢笔或铅笔在表格上所 做出的标记),或者录入到表格或文件中的印刷数据。在许多应用中, 使用光符辨识(OCR)或其它工具来进一步处理从表格或其它文件扫描 的中性色数据。术语"背景色彩"具有作为术语用于文件扫描领域的传 统意义。即,背景色彩一般是在上面录入或印刷文本或表格内容的介质 的色彩。典型地,中性色彩(例如大多数情况下是白色或偏白色)的背 景色彩也可以是非中性色彩,例如在将文件印刷在有色纸或其它彩色介 质的情况下。在黑白两色扫描中,例如,优选将背景色彩偏移为白色或 很浅的灰色,以提高背景与文本或表格色彩内容之间的对比度。为了更有效地存储和处理这种扫描文件,从扫描文件图像数据移除非所需的表格色彩是有用的。传统上,已采用若干方式来实行这种做法。 用于扫描预先印刷文件(例如表格)的若干方法使用预先已知的关于该 预先印刷文件自身的频诿内容的信息,并且使用适当调试以消除该频谱内容的扫描硬件。例如,再公告专利RE29, 104 (Shepard)利用经调试 的激光扫描器单元以扫描文件,其中激光的波长与文件上标记的色彩相 匹配,从而从标记反射的光与从文件背景反射的光具有相同的强度。预 先印刷的字符位置标记因而是"盲区(blinded)"并且不会干扰字符的 读取。在其它方法中,同样在预知预先印刷的表格上所期望的色彩情况 下采用各种类型的滤光器。用于将感兴趣的中性色数据从表格色彩分离的其它方法在色彩数 据自身上进行操作。例如,美国专利NO. 5, 335, 292 (Lovelady等)说明了将色彩数据重新映射到背景,其有效地使文件上的非所需色彩变为 0CR系统的"盲区",其中同样预先已知该色彩。还可以使用训练,从而 扫描系统"学会"如何处理文件集。然而,训练具有若干缺陷。例如, 对于训练需要分离的训练操作与工具。训练应用在色彩方面具有限制, 并且在许多情况下, 一般只有在所扫描的文件在红色、绿色或蓝色色彩 通道之一中具有高阶内容时才运作良好。训练不仅耗时,而且还需要适 当的操作者在场以检查并验证结果。那些诸如所述的解决方式可以用于在预先已知非所需的表格色彩 或色彩的情况下移除表格色彩内容。然而,这些解决方式限制任何扫描 系统的色彩舍去,从而使其仅可用于特定的文件集。在采用硬件解决方 式(例如滤色器或者使用具有特定波长的扫描光的硬件解决方式)的情 况下,扫描光学系统与文件相匹配,从而色彩舍去仅可用于具有特定色 彩的文件。针对特定表格色彩进行检查的图像处理解决方式相似地受 限,即使这种系统可以被更简单地"重新训练"或者重新编程以识别和 移除其它色彩。尽管如此,寻找特定表格色彩或色彩集的解决方式不提 供可以与大范围的具有色彩内容的文件共同使用的灵活的解决方式。这 可对工作流程具有不利影响,例如,因为其需要对具有不同表格色彩的 文件进行手工分类以将这些文件指向不同的扫描系统。其它更复杂的问 题包括墨水批次与印刷量(print run)之间的差异,这导致属于相同 类型但不同时或不在相同位置印刷的文件的频镨内容方面的偏差。为尝试提供更灵活的色彩探测和舍去方案,美国专利No. 7, 085, 413 (Huang等)说明了对从扫描文件获得的色彩直方图的使 用,其中如果主要色彩超过了临界亮度,则可对该主要色彩进行识别和 移除。该类型的方法至少比前面说明的需要已知非所需色彩的方法更具 动态性。然而,Huang等'413公开中所述的方法以及移除整个色彩通 道以便于移除非所需的表格色彩的类似方法存在从扫描数据中舍弃所 需信息的风险并提供有限的性能,特别是在表格色彩和色彩内容之间的 差异可能变化很大的情况下。在文件具有大量色彩内容(例如至少占一 半面积的单一色彩)的情况下,或者在将文件提供于有色纸料上的情况 下,可接收这种解决方式。然而,这种方法不适合扫描具有某一小量的 色彩内容或者可能具有多种色彩的文件。理想情况下,色彩舍去方案将灰阶中性色数据内容保留在文件中, 例如铅笔标记或钢笔标记或录入的深色文本内容(例如来自印刷机), 从而可以将该内容存储或用于进一步的处理,例如用于0CR处理或标记 感测应用。可接受的色彩舍去方案会舍弃非所需的表格色彩,将一个或 多个表格色彩的色彩像素舍去到该文件的背景中,而不会损害该中性色 数据的质量。此外,扫描系统具有如下色彩舍去方法会极为有利自动 调试用于具有不同背景色彩的纸料、在每个扫描文件上独立地识别表格 色彩内容,以及采取所需步骤来移除表格色彩而同时保留作为中性色数 据所提供的所需信息。
技术实现思路
本专利技术的目的是提供移除表格色彩而不会使中性色彩数据明显丢 失的文件扫描方法。鉴于该目的,本专利技术提供一种用于从文件的扫描图 像数据中移除非所需表格色彩内容的方法,该方法包括a) 获取以色彩数据格式的扫描文件图像数据;b) 将该图像数据分割成两个或更多方块(tile);c) 将每个方块根据其背景和色彩内容的组合而分类成至少第一集 和第二集;d) 从第一方块集中识别背景色彩;e) 从第二方块集中识别至少一个表格色彩;并且f) 应用使表格色彩图像数据值向背景色彩值偏移的变换。 从另一方面,本专利技术提供了一种用于从文件的扫描图像数据中移除非所需表格色彩内容的方法,该方法包括a) 获取以色彩数据格式的扫描文件图像数据;b) 将该图像数据分割成两个或更多方块;c) 将每个方块通过其色彩内容利用以下步骤特征化(i) 针对该方块内的红色色彩值生成红色直方(ii) 针对该方块内的绿色色彩值生成绿色直方(iii) 针对该方块内的蓝色色彩值生成蓝色直方(iv) 根据红色、绿色和蓝色直方图分布来确定,该方块是否主 要包含中性色背景内容,或者主要包含表格色彩内容,或者背景和色彩 内容的组合;d) 根据主要具有中性色背景内容的方块来识别背景色彩;e) 根据主要具有表格色彩内容的方块来识别至少一个表格色彩;f) 将具有该至少一个表格色彩的像素选择性地变换到背景色彩。 本专利技术的特征是,其对每个扫描文件的色彩内容进行个别分析,然后确定哪个色彩或者哪些色彩是要移除的表格色彩内容。本专利技术的优点是,其不要求预先知道表格色彩以用于训练,但是动态地应用色彩处理工具以识别表格色彩内容并将该内本文档来自技高网
...

【技术保护点】
一种用于从文件的扫描图像数据中移除至少一非所需表格色彩内容的方法,该方法包括: a)获取以色彩数据格式的扫描文件图像数据; b)将该图像数据分割成两个或更多方块; c)将每个方块根据该方块的背景和色彩内容的组合而分类成至少第一集和第二 集; d)从第一方块集中识别背景色彩; e)从第二方块集中识别至少一个表格色彩;并且 f)应用使表格色彩图像数据值向背景色彩值偏移的变换。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:GS米奇勒
申请(专利权)人:伊斯曼柯达公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1