文档图像压缩方法及其在文档认证中的应用技术

技术编号:10196111 阅读:106 留言:0更新日期:2014-07-10 22:52
本发明专利技术涉及文档图像压缩方法及其在文档认证中的应用。公开了一种用于对包含文本的二值文档图像进行压缩的方法。将文档图像分割为分别表示文档中的字母、数字等的符号图像。将符号图像分类为多个类别,每个类别与模板图像和类别索引相关联。通过使用包括分区轮廓、侧面轮廓、拓扑统计和低阶图像矩的多个图像特征将待分类的每个符号与现有类别的模板进行比较来进行分类。使用基于容差的方法来对这些图像特征进行比较以确定符号是否与模板匹配。在分类之后,其中分类有较少符号的某些类别可与其它类别合并。另外,对类别的模板图像进行下采样,其中,模板图像的最终大小与模板和其它模板的混淆可能性有关。

【技术实现步骤摘要】
文档图像压缩方法及其在文档认证中的应用
本专利技术涉及一种图像压缩方法,具体地,涉及对包含文本的文档图像进行压缩的方法以及该方法在文档认证中的应用。
技术介绍
经常打印可包括文本、图形、图片等的原始数字文档,并且分发、复制所打印的硬拷贝等,然后经常将所分发、复制的硬拷贝扫描回数字形式。认证扫描的数字文档是指,确定扫描的文档是否是原始数字文档的认证拷贝,即,确定文档在硬拷贝形式下是否被更改。更改可能是蓄意而为或因意外事件而发生。闭环处理中的文档认证是指,生成在文档本身上携带有认证数据的打印文档以及使用从扫描的文档提取的认证数据来对扫描回的文档进行认证。这样的打印文档被称为是自认证的,这是由于不需要除打印文档上的信息之外的信息来对其内容进行认证。已提出了使用条形码(特别是二维(2d)条形码)来生成自认证文档的方法。具体地,这样的方法包括:对文档的内容(文本、图形、图片等)进行处理并将其转换成作为文档内容的表示的认证数据、以2d条形码(认证条形码)对认证数据进行编码以及将条形码打印在与原始文档内容相同的记录介质上。这产生了自认证文档。为了对这样的打印文档进行认证,对文档进行扫描以获得扫描图像。还对认证条形码进行扫描并提取其中包含的认证数据。然后,对扫描图像进行处理并与认证数据进行比较,以确定打印文档的任意部分是否已被更改,即,文档是否可靠。一些认证技术能够确定什么被更改和/或哪里被更改,一些认证技术仅能确定是否发生了任何更改。JBIG2是用于二值图像(特别是包含文本的文档图像)的压缩的国际标准。JBIG2利用模式匹配和替换方法,通过该方法,将图像分割为多个符号并且开发符号字典;使得文档图像中的每个符号与字典中的符号匹配,并且根据字典条目的索引以及图像中的符号的位置和大小对每个符号进行编码。
技术实现思路
本专利技术涉及一种用于压缩二值图像(特别是包含文本的文档图像)的改进的压缩方法。本专利技术的目的是提供一种用于包含文本的文档的高效图像压缩方法。本专利技术的另一目的是提供一种用于生成携带认证信息的自认证打印文档的方法。将在随后的描述中阐述本专利技术的附加特征和优点,并且部分特征和优点根据该描述将变得明显,或者可通过实践本专利技术来学习。将通过在书面说明书及其权利要求书以及附图中具体指出的结构来实现和获得本专利技术的目的和其它优点。为了实现所实施的以及宽泛地描述的这些和/或其它目的,本专利技术提供了一种用于对表示包含文本区域的文档的二值图像进行压缩的方法,该方法包括:(a)将文本区域分割为多个符号图像,每个符号图像表示文本的符号,每个符号图像以具有位置和大小的边界框为界;(b)将在步骤(a)中获得的每个符号图像分类为多个类别之一,每个类别由模板图像和类别索引来表示,对于所分类的每个符号图像,步骤(b)包括:(b1)将符号图像与每个模板图像进行比较以确定它们是否彼此匹配,包括将符号图像的多个特征与模板图像的对应的多个特征进行比较,该多个特征包括密度统计特征、侧面轮廓特征、拓扑统计特征和形状特征;(b2)如果在步骤(b1)中找到匹配,则与所分类的符号图像相关联地记录与所匹配的模板对应的类别索引;以及(b3)如果在步骤(b1)中没有找到匹配,则通过使用所分类的符号图像的图像作为新类别的模板图像并为新类别分配类别索引而将新类别添加到多个类别,以及与所分类的符号图像相关联地记录类别索引;(c)将每个类别的模板图像的大小调整为最终大小;以及(d)将多个类别中的每个的经大小调整后的模板图像连同其类别索引、在步骤(a)中获得的每个符号图像的边界框的位置和大小以及在步骤(b2)或(b3)中获得的每个符号图像的类别索引存储作为压缩的图像数据。在一些实施例中,密度统计特征包括分区轮廓特征,并且形状特征包括低阶矩特征。在另一方面,本专利技术提供了一种用于对表示包含文本区域的文档的二值图像进行压缩的方法,该方法包括:(a)将文本区域分割为多个符号图像,每个符号图像表示文本的符号,每个符号图像以具有位置和大小的边界框为界;(b)将在步骤(a)中获得的每个符号图像分类为多个类别之一,每个类别由模板图像和类别索引来表示,对于所分类的每个符号图像,步骤(b)包括:(b1)将符号图像与每个模板图像进行比较以确定它们是否彼此匹配;(b2)如果在步骤(b1)中找到匹配,则与所分类的符号图像相关联地记录与所匹配的模板对应的类别索引;以及(b3)如果在步骤(b1)中没有找到匹配,则通过使用所分类的符号图像的图像作为新类别的模板图像以及为新类别分配类别索引而将新类别添加到多个类别,并且与所分类的符号图像相关联地记录类别索引;(c)将每个类别的模板图像的大小调整为最终大小,其中,至少一些模板图像的最终大小是彼此不同的,步骤(c)包括:(c1)计算每个模板图像与每个其它模板图像的相似度度量;(c2)基于算出的与其它模板图像的相似度度量而确定每个模板图像的最终大小;以及(c3)将每个模板图像的大小调整为在步骤(c2)中确定的最终大小;以及(d)将多个类别中的每个的经大小调整后的模板图像连同其类别索引、在步骤(a)中获得的每个符号图像的边界框的位置和大小、以及在步骤(b2)或(b3)中获得的每个符号图像的类别索引存储作为压缩的图像数据。在另一方面,本专利技术提供了一种包括计算机可用非暂态介质(例如,存储器或存储装置)的计算机程序产品,该计算机可用非暂态介质中嵌入有用于控制数据处理设备的计算机可读程序代码,该计算机可读程序代码被配置成使得数据处理设备执行上述方法。应理解,以上的概括描述和以下的详细描述均是示例性和说明性的,并且旨在提供要求保护的本专利技术的进一步说明。附图说明图1示意性地示出了根据本专利技术的实施例的用于对包含文本的文档图像进行压缩的图像压缩方法。图2示意性地示出了根据本专利技术的实施例的用于使用各种图像特征对两个符号图像进行比较的处理。图3A和图3B示意性地示出了用于生成和认证打印文档的处理,其中,可应用根据本专利技术的实施例的图像压缩方法。图3A示出了对文档图像进行处理以生成压缩的图像数据以及打印具有对认证数据编码的条形码的文档的方法;图3B示出了使用以条形码编码的压缩图像来对扫描文档进行认证的方法。图4绘出了可用在符号比较中的两个符号的示例性侧面轮廓。具体实施方式这里描述的方法可以在包括处理器、存储器和存储装置的数据处理系统中实现。该数据处理系统可以是连接到打印机、扫描仪、复印机和/或多功能装置的独立计算机,或者可包含在打印机、扫描仪、复印机或多功能装置中。该数据处理系统通过由处理器执行存储在存储装置中的计算机程序来执行该方法。在一方面,本专利技术是由数据处理系统执行的方法。在另一方面,本专利技术是在其中嵌入有用于控制数据处理设备的计算机可读程序代码的计算机可用非暂态介质(存储装置)中实施的计算机程序产品。在另一方面,本专利技术在数据处理系统中来实施。图1示意性地示出了根据本专利技术的实施例的用于对包含文本的文档图像进行压缩的图像压缩方法。首先,获得电子文档图像(步骤S101)。这里,术语“图像”是指位图图像,其中,每个图像像素可具有二进制值、灰度级值或颜色值。文档图像是指在其内容中包含大量文本的图像,但是其也可包含诸如图形和图片的非文本内容。文档图像可通过扫描硬拷贝文档、利用摄像装置拍摄硬拷贝文档的照本文档来自技高网
...
文档图像压缩方法及其在文档认证中的应用

【技术保护点】
一种用于对表示包含文本区域的文档的二值图像进行压缩的方法,所述方法包括:(a)将所述文本区域分割为多个符号图像,每个符号图像表示文本的符号,每个符号图像以具有位置和大小的边界框来界定;(b)将在步骤(a)中所获得的每个符号图像分类为多个类别之一,每个类别由模板图像和类别索引来表示,对于所分类的每个符号图像,步骤(b)包括:(b1)将所述符号图像与每个模板图像进行比较以确定它们是否彼此匹配,包括将所述符号图像的多个特征与所述模板图像的相应多个特征进行比较,所述多个特征包括密度统计特征、侧面轮廓特征、拓扑统计特征及形状特征;(b2)如果在步骤(b1)中找到匹配,则与所分类的符号图像相关联地记录与所匹配的模板对应的类别索引;以及(b3)如果在步骤(b1)中没有找到匹配,则通过使用所分类的符号图像的图像作为新类别的模板图像并为所述新类别分配类别索引,来将所述新类别添加到所述多个类别,并且与所分类的符号图像相关联地记录所述类别索引;(c)将每个类别的模板图像的大小调整为最终大小;以及(d)将所述多个类别中的每个类别的经大小调整后的模板图像连同其类别索引、在步骤(a)中所获得的每个符号图像的边界框的位置和大小、以及在步骤(b2)或(b3)中所获得的每个符号图像的类别索引存储为压缩的图像数据。...

【技术特征摘要】
2012.12.28 US 13/730,7571.一种用于对表示包含文本区域的文档的二值图像进行压缩的方法,所述方法包括:(a)将所述文本区域分割为多个符号图像,每个符号图像表示文本的符号,每个符号图像以具有位置和大小的边界框来界定;(b)将在步骤(a)中所获得的每个符号图像分类为多个类别之一,每个类别由模板图像和类别索引来表示,对于所分类的每个符号图像,步骤(b)包括:(b1)将所述符号图像与每个模板图像进行比较以确定它们是否彼此匹配,包括将所述符号图像的多个特征与所述模板图像的相应多个特征进行比较,所述多个特征包括密度统计特征、侧面轮廓特征、拓扑统计特征及形状特征;(b2)如果在步骤(b1)中找到匹配,则与所分类的符号图像相关联地记录与所匹配的模板对应的类别索引;以及(b3)如果在步骤(b1)中没有找到匹配,则通过使用所分类的符号图像的图像作为新类别的模板图像并为所述新类别分配类别索引,来将所述新类别添加到所述多个类别,并且与所分类的符号图像相关联地记录所述类别索引;(c)将每个类别的模板图像的大小调整为最终大小;以及(d)将所述多个类别中的每个类别的经大小调整后的模板图像连同其类别索引、在步骤(a)中所获得的每个符号图像的边界框的位置和大小、以及在步骤(b2)或(b3)中所获得的每个符号图像的类别索引存储为压缩的图像数据,其特征在于,在步骤(c)中,至少一些模板图像的最终大小是彼此不同的,其中,步骤(c)包括:(c1)计算每个模板图像与每个其它模板图像的相似度度量;(c2)基于算出的与其它模板图像的相似度度量,确定每个模板图像的最终大小;以及(c3)将每个模板图像的大小调整为在步骤(c2)中所确定的最终大小。2.根据权利要求1所述的方法,其中,步骤(a)包括:将所述文本区域分割为多个行,将所述多个行分割为多个词,以及将所述多个词分割为所述多个符号图像。3.根据权利要求1所述的方法,其中,所述密度统计特征包括分区轮廓特征,其中,所述形状特征包括低阶矩特征,以及其中,对于所比较的每个模板图像,步骤(b1)包括:计算第一差别数量、第二差别数量、第三差别数量和第四差别数量,所述第一差别数量、第二差别数量、第三差别数量和第四差别数量分别表示所述符号图像的、与所述模板图像的相应特征不同的分区轮廓特征的数量、侧面轮廓特征的数量、拓扑统计特征的数量和低阶矩特征的数量;以及其中,如果所述第一差别数量小于或等于第一阈值,所述第二差别数量小于或等于第二阈值,所述第三差别数量小于或等于第三阈值,以及所述第四差别数量小于或等于第四阈值,则确定所述符号图像和所述模板图像彼此匹配。4.根据权利要求1所述的方法,其中,所述密度统计特征包括分区轮廓特征,其中,所述形状特征包括低阶矩特征,以及其中,对于每个所比较的模板图像,步骤(b1)包括:计算第一差别数量、第二差别数量、第三差别数量和第四差别数量,所述第一差别数量、第二差别数量、第三差别数量和第四差别数量分别表示所述符号图像的、与所述模板图像的相应特征不同的分区轮廓特征的数量、侧面轮廓特征的数量、拓扑统计特...

【专利技术属性】
技术研发人员:田宜彬明伟
申请(专利权)人:柯尼卡美能达美国研究所有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1