一种基于信息挖掘与信息融合的打印文件鉴别方法技术

技术编号：11584786 阅读：71 留言：0更新日期：2015-06-10 18:14

本发明专利技术公开了一种基于信息挖掘与信息融合的打印文件鉴别方法，利用整体高倍放大采集打印文档的单个字符图像，计算每幅图像灰度共生矩阵的四个统计特征，以其作为打印文件的初始鉴别特征。建立初始鉴别特征的两因子模型，通过对常用汉字、数字和英文字母的信息挖掘，得到各自的字符因子。分离初始鉴别特征的字符因子，得到的新特征将不再受字符形态结构的影响，因此一份打印文档的所有字符特征都能进行特征融合，以其所有图像的特征均值作为打印文档所来自的打印机的特征描述，以两台打印机之间的特征距离作为匹配分类的依据。本发明专利技术不需要打印机文档之间有相同字符且字符数量不用太多，提高了打印文件鉴别方法的适用范围和准确率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于打印机文档的源机认定
，具体涉及一种基于信息挖掘与信息融合的打印文件鉴别方法，提出打印文件鉴别的两因子模型，通过信息挖掘与信息融合技术实现两份打印文档的一对一鉴别。
技术介绍
由于每台打印机在生产时的参数配置和使用中的损耗情况都是独一无二的，因此打印出的文档也都不相同，这也是打印文件可区分鉴定的客观基础，所谓打印文件鉴别就是鉴定两份打印文档是否来自同一打印机的技术。随着计算机和打印机的普及，打印文件也逐渐取代手写文件成为承载信息的主要媒介，与此同时，有关打印文件篡改、伪造等犯罪行为也日益增多，因此越来越多的人投入打印文件鉴别的相关研究领域。但到目前为止都没有合理的模型用于描述打印文档的字符特征，而且目前的打印文件鉴别主要都是在两份打印文档有相同字的情况下才能做到，因为在不同字符做匹配鉴别时，其形态结构的影响会覆盖打印机特征的影响，无法获得正确结论；其次，为了获得好的正确率，相同字符重复次数不能太少，因为重复越多其表现出的打印机特性越稳定。而以上所说的这两点在实际应用中很难得到满足，尤其在中文打印文档鉴别中更难做到。
技术实现思路
为了解决上述的技术问题，本专利技术提出了一种基于信息挖掘与信息融合的打印文件鉴别方法，以解决在没有相同字符匹配并且整体字符数量很少的情况下而无法进行鉴别的问题。本专利技术所采用的技术方案是：一种基于信息挖掘与信息融合的打印文件鉴别方法，其特征在于，包括以下步骤：步骤1 :通过可将图像高倍放大的扫描系统，采集得到放大150倍后的文档图像，然后通过字符切割得到单个...
一种基于信息挖掘与信息融合的打印文件鉴别方法

【技术保护点】
一种基于信息挖掘与信息融合的打印文件鉴别方法，其特征在于，包括以下步骤：步骤1：通过可将图像高倍放大的扫描系统，采集得到放大150倍后的文档图像，然后通过字符切割得到单个字符图像；步骤2：采用经典的灰度共生矩阵(GLCM)算法提取每幅字符图像特征，取水平和垂直两个方向，分别对应打印机的扫描和走纸方向，步长各取N步，然后计算灰度共生矩阵(GLCM)的4个统计特征：对比度、一致性、自相关和熵，则每幅字符图像的特征共2×N×4维特征；其中5≤N≤20；步骤3：针对已知打印机的打印文档字符图像特征，建立并验证打印文档字符图像鉴别的两因子模型，所述的两因子为纹理因子和字符因子；所述的纹理因子是打印文件鉴别的贡献因子，字符因子是打印文件鉴别的干扰因子；步骤4：针对已知打印机的打印文档字符图像特征，挖掘出对打印文档字符图像鉴别起干扰作用的字符因子；步骤5：针对待鉴别的两份打印文档Y1和Y2的字符图像特征，将已挖掘出的字符因子从字符图像特征值中分离，只留下纹理因子，对一份打印文档所有字符图像的纹理因子进行特征融合得到打印文档的鉴别特征；步骤6：计算两份打印文档Y1和Y2之间的特征距离，通过阈值分类方法...

【技术特征摘要】

【专利技术属性】
技术研发人员：陈庆虎，熊海亚，
申请(专利权)人：武汉珞珈博研科技有限责任公司，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人