文档图像压缩方法及其在文档认证中的应用技术

技术编号：10196111 阅读：106 留言：0更新日期：2014-07-10 22:52

本发明专利技术涉及文档图像压缩方法及其在文档认证中的应用。公开了一种用于对包含文本的二值文档图像进行压缩的方法。将文档图像分割为分别表示文档中的字母、数字等的符号图像。将符号图像分类为多个类别，每个类别与模板图像和类别索引相关联。通过使用包括分区轮廓、侧面轮廓、拓扑统计和低阶图像矩的多个图像特征将待分类的每个符号与现有类别的模板进行比较来进行分类。使用基于容差的方法来对这些图像特征进行比较以确定符号是否与模板匹配。在分类之后，其中分类有较少符号的某些类别可与其它类别合并。另外，对类别的模板图像进行下采样，其中，模板图像的最终大小与模板和其它模板的混淆可能性有关。

全部详细技术资料下载

【技术实现步骤摘要】
文档图像压缩方法及其在文档认证中的应用
本专利技术涉及一种图像压缩方法，具体地，涉及对包含文本的文档图像进行压缩的方法以及该方法在文档认证中的应用。
技术介绍
经常打印可包括文本、图形、图片等的原始数字文档，并且分发、复制所打印的硬拷贝等，然后经常将所分发、复制的硬拷贝扫描回数字形式。认证扫描的数字文档是指，确定扫描的文档是否是原始数字文档的认证拷贝，即，确定文档在硬拷贝形式下是否被更改。更改可能是蓄意而为或因意外事件而发生。闭环处理中的文档认证是指，生成在文档本身上携带有认证数据的打印文档以及使用从扫描的文档提取的认证数据来对扫描回的文档进行认证。这样的打印文档被称为是自认证的，这是由于不需要除打印文档上的信息之外的信息来对其内容进行认证。已提出了使用条形码（特别是二维（2d）条形码）来生成自认证文档的方法。具体地，这样的方法包括：对文档的内容（文本、图形、图片等）进行处理并将其转换成作为文档内容的表示的认证数据、以2d条形码（认证条形码）对认证数据进行编码以及将条形码打印在与原始文档内容相同的记录介质上。这产生了自认证文档。为了对这样的打印文档进行认证，对文档进行扫描以获得扫描图像。还对认证条形码进行扫描并提取其中包含的认证数据。然后，对扫描图像进行处理并与认证数据进行比较，以确定打印文档的任意部分是否已被更改，即，文档是否可靠。一些认证技术能够确定什么被更改和/或哪里被更改，一些认证技术仅能确定是否发生了任何更改。JBIG2是用于二值图像（特别是包含文本的文档图像）的压缩的国际标准。JBIG2利用模式匹配和替换方法，通过该方法，将图像分割为多个符号并...
文档图像压缩方法及其在文档认证中的应用

【技术保护点】
一种用于对表示包含文本区域的文档的二值图像进行压缩的方法，所述方法包括：（a）将所述文本区域分割为多个符号图像，每个符号图像表示文本的符号，每个符号图像以具有位置和大小的边界框来界定；（b）将在步骤（a）中所获得的每个符号图像分类为多个类别之一，每个类别由模板图像和类别索引来表示，对于所分类的每个符号图像，步骤（b）包括：（b1）将所述符号图像与每个模板图像进行比较以确定它们是否彼此匹配，包括将所述符号图像的多个特征与所述模板图像的相应多个特征进行比较，所述多个特征包括密度统计特征、侧面轮廓特征、拓扑统计特征及形状特征；（b2）如果在步骤（b1）中找到匹配，则与所分类的符号图像相关联地记录与所匹配的模板对应的类别索引；以及（b3）如果在步骤（b1）中没有找到匹配，则通过使用所分类的符号图像的图像作为新类别的模板图像并为所述新类别分配类别索引，来将所述新类别添加到所述多个类别，并且与所分类的符号图像相关联地记录所述类别索引；（c）将每个类别的模板图像的大小调整为最终大小；以及（d）将所述多个类别中的每个类别的经大小调整后的模板图像连同其类别索引、在步骤（a）中所获得的每个符号图像的边界框...

【技术特征摘要】
2012.12.28 US 13/730,7571.一种用于对表示包含文本区域的文档的二值图像进行压缩的方法，所述方法包括：(a)将所述文本区域分割为多个符号图像，每个符号图像表示文本的符号，每个符号图像以具有位置和大小的边界框来界定；(b)将在步骤(a)中所获得的每个符号图像分类为多个类别之一，每个类别由模板图像和类别索引来表示，对于所分类的每个符号图像，步骤(b)包括：(b1)将所述符号图像与每个模板图像进行比较以确定它们是否彼此匹配，包括将所述符号图像的多个特征与所述模板图像的相应多个特征进行比较，所述多个特征包括密度统计特征、侧面轮廓特征、拓扑统计特征及形状特征；(b2)如果在步骤(b1)中找到匹配，则与所分类的符号图像相关联地记录与所匹配的模板对应的类别索引；以及(b3)如果在步骤(b1)中没有找到匹配，则通过使用所分类的符号图像的图像作为新类别的模板图像并为所述新类别分配类别索引，来将所述新类别添加到所述多个类别，并且与所分类的符号图像相关联地记录所述类别索引；(c)将每个类别的模板图像的大小调整为最终大小；以及(d)将所述多个类别中的每个类别的经大小调整后的模板图像连同其类别索引、在步骤(a)中所获得的每个符号图像的边界框的位置和大小、以及在步骤(b2)或(b3)中所获得的每个符号图像的类别索引存储为压缩的图像数据，其特征在于，在步骤(c)中，至少一些模板图像的最终大小是彼此不同的，其中，步骤(c)包括：(c1)计算每个模板图像与每个其它模板图像的相似度度量；(c2)基于算出的与其它模板图像的相似度度量，确定每个模板图像的最终大小；以及(c3)将每个模板图像的大小调整为在步骤(c2)中所确定的最终大小。2.根据权利要求1所述的方法，其中，步骤(a)包括：将所述文本区域分割为多个行，将所述多个行分割为多个词，以及将所述多个词分割为所述多个符号图像。3.根据权利要求1所述的方法，其中，所述密度统计特征包括分区轮廓特征，其中，所述形状特征包括低阶矩特征，以及其中，对于所比较的每个模板图像，步骤(b1)包括：计算第一差别数量、第二差别数量、第三差别数量和第四差别数量，所述第一差别数量、第二差别数量、第三差别数量和第四差别数量分别表示所述符号图像的、与所述模板图像的相应特征不同的分区轮廓特征的数量、侧面轮廓特征的数量、拓扑统计特征的数量和低阶矩特征的数量；以及其中，如果所述第一差别数量小于或等于第一阈值，所述第二差别数量小于或等于第二阈值，所述第三差别数量小于或等于第三阈值，以及所述第四差别数量小于或等于第四阈值，则确定所述符号图像和所述模板图像彼此匹配。4.根据权利要求1所述的方法，其中，所述密度统计特征包括分区轮廓特征，其中，所述形状特征包括低阶矩特征，以及其中，对于每个所比较的模板图像，步骤(b1)包括：计算第一差别数量、第二差别数量、第三差别数量和第四差别数量，所述第一差别数量、第二差别数量、第三差别数量和第四差别数量分别表示所述符号图像的、与所述模板图像的相应特征不同的分区轮廓特征的数量、侧面轮廓特征的数量、拓扑统计特...

【专利技术属性】
技术研发人员：田宜彬，明伟，
申请(专利权)人：柯尼卡美能达美国研究所有限公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人