从具有非均匀背景内容的电子扫描图像中提取文档页面图像制造技术

技术编号:19075971 阅读:19 留言:0更新日期:2018-09-29 17:55
一种技术包括获取表示通过抵靠背景对页面进行电子扫描产生的第一图像的数据。第一图像包含非均匀背景内容,该非均匀背景内容至少部分地归因于背景非均匀所引入的变化。该技术包括从第一图像中提取页面的图像,其中该提取包括将第一图像的背景内容特性化;至少部分地基于特性化的背景内容识别与页面相关联的候选像素;以及至少部分地基于识别的候选像素和用于页面的边界的模型,确定页面的边界。

【技术实现步骤摘要】
【国外来华专利技术】从具有非均匀背景内容的电子扫描图像中提取文档页面图像
技术介绍
文档扫描系统可以包括图像捕获装置,该图像捕获装置用于产生针对由系统扫描文档页面或文档页的反射介质的反射率的空间变化的数字表示。捕获装置可以是例如接触式图像传感器(CIS)系统,其可以包括各种色彩的发光二极管(LED)的光源、分散光导和杆状透镜阵列。此外,CIS系统可以包括电荷耦合器件(CCD)半导体封装件或芯片,其可以端对端地布置以形成光敏元件阵列。CIS系统还可以包括用于将由光敏信号提供的信号转换为表示数字像素值的数据的硬件。附图说明图1是根据示例实施方式的用于扫描文档页面的电子扫描系统的示意图。图2是根据示例实施方式的图1的扫描系统的辊的透视图。图3、图4和图6是描绘根据示例实施方式的提取由扫描系统扫描文档页面的图像的技术的流程图。图5A示出了根据示例实施方式的包含文档页面和背景内容的图像的扫描合成图像。图5B示出了根据示例实施方式的从图5A的合成图像导出的较低分辨率缩略图像。图5C示出了根据示例实施方式的与合成图像的背景内容相关联的扫描仪响应。图5D示出了根据示例实施方式的在处理以移除特性化的背景内容之后的图5B的缩略图像。图5E描绘了根据示例实施方式的缩略图像的进一步处理以对缩略图像的像素强度进行二值化。图5F描绘了根据示例实施方式的噪声清除之后的二值化缩略图像。图5G示出了根据示例实施方式的与文档页面图像的边界的相对粗略近似相关联的边界像素的识别。图5H示出了根据示例实施方式的页面边界模型的初始化。图5I和图5J示出了根据示例实施方式的使用最小二乘拟合技术的页边界模型来细化文档页面图像的边界的近似。图5K示出了根据示例实施方式的提取的文档页面图像。具体实施方式设计文档扫描系统的一种方式是包括递送表示扫描文档页面的图像的数据的特征,使得图像的不表示文档页面的所有像素表示已知的背景响应。例如,一种解决方案可以是构造文档扫描系统以递送表示扫描图像的数据,其中图像的与扫描文档页面有关的部分之外的内容是均匀的(例如,均匀的白色背景)。然而,其他文档扫描系统可能不递送表示具有此类均匀背景内容的扫描图像的数据。例如,文档扫描系统可以是紧凑系统,例如使用滚动式进纸设备的系统,并且在扫描期间直接抵靠支撑文档页面的进纸辊对文档页面进行成像。结果,由此类文档扫描系统递送的数据可以表示叠加在非均匀背景上的文档页面的图像。非均匀背景可能对数据的后续扫描和复制处理提出挑战,因为精确提取扫描文档页面的图像可能具有挑战性。根据本文描述的示例实施方式,构造抵靠非均匀背景进行扫描的文档扫描系统以处理获取的扫描数据从而提取扫描文档页面的图像(本文中称为“文档页面图像”、“文档图像”、“页面图像”,等等)。更具体地,如本文所述,根据示例实施方式,文档扫描系统获取表示扫描文档页面和非均匀背景内容的合成图像的数据。扫描系统处理数据以将背景内容特性化并将页面边界模型应用于文档页面,以便确定合成图像中的文档页面的边界。然后,扫描系统可以至少部分地基于确定的边界从合成图像中提取文档页面的图像。参考图1,作为更具体的示例,扫描系统100可以包括扫描传感器阵列和光学器件124,其感测来自文档页面的反射照明。对于图1描绘的示例实施方式,扫描系统100具有壳体101,扫描传感器阵列和光学器件124以及系统100的其他部件设置在壳体101中;并且壳体101包含输入槽102,其中待扫描文档页面被供给到输入槽102中。应注意,根据进一步的实施方式,扫描系统100可以采用其他形式并使用另一种类型的输入进纸器。扫描传感器阵列和光学器件124可以包括线性传感器,例如,由例如端对端布置的CCD半导体封装件形成的传感器。根据示例实施方式,扫描系统100可以是滚动式进纸设备,其中文档页面被供给到输入槽102中并且由接触文档页面的一个或多个辊110推进。根据示例实施方式,扫描传感器阵列和光学器件124直接抵靠辊110对文档页面进行成像。以这种方式,参考图2并结合图1,根据示例实施方式,对文档页面进行成像所抵靠的辊110可以是分段辊,其被构造成围绕纵向轴线203旋转以推进正被扫描的文档页面,并且辊110包括夹持文档页面并推进文档页面通过扫描系统100的滚柱(tire)200。如图2所示,辊110可以包括相邻滚柱200之间的间隙202。作为示例,滚柱200可以是深色(例如黑色)橡胶滚柱(即,滚柱200可以通常呈现非反射的成像表面),并且间隙202可以暴露反射表面(例如,白色表面)。这导致由扫描系统100获取的扫描合成图像的非均匀背景。应注意,图2的辊110是表面的示例,可以抵靠该表面对文档页面进行扫描以将非均匀背景内容赋予所得到的扫描合成图像。尽管根据示例实施方式,该示例非均匀背景内容具有由相对较小的较亮区域分隔的较大较暗区域,但相反的情况可能是真实的。此外,根据进一步的实施方式,非均匀背景内容可以不是重复的图案。通常,“非均匀背景内容”或“非均匀背景”意味着背景内容/背景是异构的,即,不与相同的像素色彩或像素强度相关联。返回参考图1,文档扫描系统100可以包括页面传感器140,其用于感测扫描文档页面的后边缘(或其他边缘)。使用页面传感器140的输出,扫描系统100可以检测何时正在扫描纯背景内容(即,扫描系统100可以检测何时正在清楚地扫描分段辊110而不是正在扫描文档页面)。文档扫描系统100可以包括通信端口142(作为示例,通用串行总线(USB)或以太网端口),其用于将表示提取的图像的数据传送到计算设备(台式计算机、平板计算机、膝上型计算机等等)。如本文所述,扫描系统100可以包括一个或多个处理核132(作为示例,一个或多个中央处理单元(CPU)核)和存储器134。作为示例,存储器134可以是由半导体存储器设备、相变存储器设备、磁存储设备、记忆电阻器、这些或其他存储设备中的两个或更多个的组合等形成的非瞬态存储介质。存储器134可以存储程序指令138(即,机器可执行指令或“软件”)和数据136。作为示例,数据136可以是图像数据;或者与本文描述的任何图像处理技术相关联的初步、中间和/或最终结果数据。根据示例实施方式,程序指令138在由(多个)处理核132执行时使得(多个)处理核132应用本文描述的成像处理技术以用于处理表示扫描合成图像的获取的数据,从而从合成图像中提取文档页面的图像。更具体地,根据示例实施方式,一个或多个处理核132(图1)可以执行程序指令138(图1),以用于执行图3中所示的技术300。参考图3,根据技术300的框304,处理表示扫描合成图像的数据以将扫描合成图像的背景内容特性化,并至少部分地基于特性化确定包含在扫描合成图像内的文档图像的边界的相对粗略近似。背景内容是非均匀的,这至少部分地归因于通过抵靠扫描仪的非均匀扫描背景进行成像而引入的变化。根据技术300,至少部分地基于用于文档图像的边界模型来细化(框306)文档图像的边界的粗略近似;并且至少部分地基于细化的结果,从扫描合成图像中提取(框308)文档图像。更具体地,根据一些实施方式,一个或多个处理核132(图1)可以执行程序指令138(图1),以用于执行图4中描绘的技术400。参考图4,根据技术400,获取(框402)数据本文档来自技高网...

【技术保护点】
1.一种方法,包括:获取表示通过抵靠背景对页面进行电子扫描而产生的第一图像的数据,其中所述第一图像包含非均匀背景内容,所述非均匀背景内容至少部分地归因于所述背景非均匀而引入的变化;以及从所述第一图像提取所述页面的图像,所述提取包括:将所述第一图像的所述背景内容特性化;至少部分地基于特性化的背景内容来识别与所述页面相关联的候选像素;以及至少部分地基于识别的候选像素和用于所述页面的边界的模型,确定所述页面的所述边界。

【技术特征摘要】
【国外来华专利技术】1.一种方法,包括:获取表示通过抵靠背景对页面进行电子扫描而产生的第一图像的数据,其中所述第一图像包含非均匀背景内容,所述非均匀背景内容至少部分地归因于所述背景非均匀而引入的变化;以及从所述第一图像提取所述页面的图像,所述提取包括:将所述第一图像的所述背景内容特性化;至少部分地基于特性化的背景内容来识别与所述页面相关联的候选像素;以及至少部分地基于识别的候选像素和用于所述页面的边界的模型,确定所述页面的所述边界。2.根据权利要求1所述的方法,进一步包括:处理表示所述第一图像的所述数据以生成表示所述页面和所述背景的第二图像的第二数据,相比于所述第一图像的分辨率,所述第二图像具有较低的分辨率;以及将所述第一图像的所述背景内容特性化,识别所述候选像素并使用所述第二图像确定所述页面的所述边界。3.根据权利要求2所述的方法,其中确定所述页面的所述边界包括:确定所述页面在所述第二图像中的边界;以及缩放所述页面在所述第二图像中的所述边界以确定所述页面在所述第一图像中的的所述边界。4.根据权利要求1所述的方法,其中识别所述候选像素包括:至少部分地基于所述像素与所述特性化的背景内容的不相似水平来向所述像素分配页面隶属度的程度,以生成表示所述页面的图像;以及过滤表示所述页面的所述图像以生成表示所述候选像素的图像。5.根据权利要求4所述的方法,其中过滤表示所述页面的图像包括应用形态学开放过滤器。6.根据权利要求1所述的方法,其中确定所述页面的所述边界包括:使用表示所述识别的候选像素的图像,在所述页面的边界的近似之后识别像素的坐标;以及至少部分地基于页面边界模型和识别的坐标来细化所述近似。7.根据权利要求1所述的方法,其中所述非均匀背景内容至少部分地归因于通过抵靠电子扫描系统的分段辊进行成像而引入的变化。8.根据权利要求1所述的方法,进一步包括:至少部分地基于所述页面的确定的边界来处理表示所述第一图像的所述数据,其中处理表示扫描图像的所述数据包括裁剪、歪斜校正或缩放所述扫描图像的与所述页面对应的像素。9.一种包括用于存储指令的非瞬态存储介质的物品,所述指令在由计算机执行时使所述计算机:处理表示扫描合成图像的数据以将所述扫描合成图像的背景内容特性化,并且至少部分地基于所述特性化来确定包含在所述扫描合成图像内的文档图像的边界...

【专利技术属性】
技术研发人员:D·M·贝范格查理斯·贾吴一枫
申请(专利权)人:惠普发展公司有限责任合伙企业
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1