一种基于信息挖掘与信息融合的打印文件鉴别方法技术

技术编号:11584786 阅读:71 留言:0更新日期:2015-06-10 18:14
本发明专利技术公开了一种基于信息挖掘与信息融合的打印文件鉴别方法,利用整体高倍放大采集打印文档的单个字符图像,计算每幅图像灰度共生矩阵的四个统计特征,以其作为打印文件的初始鉴别特征。建立初始鉴别特征的两因子模型,通过对常用汉字、数字和英文字母的信息挖掘,得到各自的字符因子。分离初始鉴别特征的字符因子,得到的新特征将不再受字符形态结构的影响,因此一份打印文档的所有字符特征都能进行特征融合,以其所有图像的特征均值作为打印文档所来自的打印机的特征描述,以两台打印机之间的特征距离作为匹配分类的依据。本发明专利技术不需要打印机文档之间有相同字符且字符数量不用太多,提高了打印文件鉴别方法的适用范围和准确率。

【技术实现步骤摘要】

本专利技术属于打印机文档的源机认定
,具体涉及一种基于信息挖掘与信息 融合的打印文件鉴别方法,提出打印文件鉴别的两因子模型,通过信息挖掘与信息融合技 术实现两份打印文档的一对一鉴别。
技术介绍
由于每台打印机在生产时的参数配置和使用中的损耗情况都是独一无二的,因此 打印出的文档也都不相同,这也是打印文件可区分鉴定的客观基础,所谓打印文件鉴别就 是鉴定两份打印文档是否来自同一打印机的技术。 随着计算机和打印机的普及,打印文件也逐渐取代手写文件成为承载信息的主要 媒介,与此同时,有关打印文件篡改、伪造等犯罪行为也日益增多,因此越来越多的人投入 打印文件鉴别的相关研究领域。但到目前为止都没有合理的模型用于描述打印文档的字符 特征,而且目前的打印文件鉴别主要都是在两份打印文档有相同字的情况下才能做到,因 为在不同字符做匹配鉴别时,其形态结构的影响会覆盖打印机特征的影响,无法获得正确 结论;其次,为了获得好的正确率,相同字符重复次数不能太少,因为重复越多其表现出的 打印机特性越稳定。而以上所说的这两点在实际应用中很难得到满足,尤其在中文打印文 档鉴别中更难做到。
技术实现思路
为了解决上述的技术问题,本专利技术提出了一种基于信息挖掘与信息融合的打印文 件鉴别方法,以解决在没有相同字符匹配并且整体字符数量很少的情况下而无法进行鉴别 的问题。 本专利技术所采用的技术方案是:一种基于信息挖掘与信息融合的打印文件鉴别方 法,其特征在于,包括以下步骤: 步骤1 :通过可将图像高倍放大的扫描系统,采集得到放大150倍后的文档图像, 然后通过字符切割得到单个字符图像; 步骤2 :采用经典的灰度共生矩阵(GLCM)算法提取每幅字符图像特征,取水平和 垂直两个方向,分别对应打印机的扫描和走纸方向,步长各取N步,然后计算灰度共生矩阵 (GLCM)的4个统计特征:对比度、一致性、自相关和熵,则每幅字符图像的特征共2XNX4 维特征;其中5 < NS 20 ; 步骤3 :针对已知打印机的打印文档字符图像特征,建立并验证打印文档字符图 像鉴别的两因子模型,所述的两因子为纹理因子和字符因子;所述的纹理因子是打印文件 鉴别的贡献因子,字符因子是打印文件鉴别的干扰因子; 步骤4 :针对已知打印机的打印文档字符图像特征,挖掘出对打印文档字符图像 鉴别起干扰作用的字符因子; 步骤5 :针对待鉴别的两份打印文档YJP ¥2的字符图像特征,将已挖掘出的字符 因子从字符图像特征值中分离,只留下纹理因子,对一份打印文档所有字符图像的纹理因 子进行特征融合得到打印文档的鉴别特征; 步骤6 :计算两份打印文档1和Y 2之间的特征距离,通过阈值分类方法判定两份 打印文档是否来自同一打印机。 作为优选,步骤2中所述的计算灰度共生矩阵(GLCM)P(矩阵的尺寸大小为KXK, 矩阵中每一个元素表示为P(i,j))的4个统计特征:对比度C0N、一致性HOMO、自相关Cor 和熵Ee,其具体公式为:【主权项】1. ,其特征在于,包括以下步骤: 步骤1 :通过可将图像高倍放大的扫描系统,采集得到放大150倍后的文档图像,然后 通过字符切割得到单个字符图像; 步骤2:采用经典的灰度共生矩阵(GLCM)算法提取每幅字符图像特征,取水平和垂 直两个方向,分别对应打印机的扫描和走纸方向,步长各取N步,然后计算灰度共生矩阵 (GLCM)的4个统计特征:对比度、一致性、自相关和熵,则每幅字符图像的特征共2XNX4 维特征;其中5 < 20 ; 步骤3 :针对已知打印机的打印文档字符图像特征,建立并验证打印文档字符图像鉴 别的两因子模型,所述的两因子为纹理因子和字符因子;所述的纹理因子是打印文件鉴别 的贡献因子,字符因子是打印文件鉴别的干扰因子; 步骤4:针对已知打印机的打印文档字符图像特征,挖掘出对打印文档字符图像鉴别 起干扰作用的字符因子; 步骤5 :针对待鉴别的两份打印文档YJP¥2的字符图像特征,将已挖掘出的字符因子 从字符图像特征值中分离,只留下纹理因子,对一份打印文档所有字符图像的纹理因子进 行特征融合得到打印文档的鉴别特征; 步骤6 :计算两份打印文档YJPY2之间的特征距离,通过阈值分类方法判定两份打印 文档是否来自同一打印机。2. 根据权利要求1所述的基于信息挖掘与信息融合的打印文件鉴别方法,其特征在 于:步骤2中所述的计算灰度共生矩阵(GLCM)P的4个统计特征:对比度CON、一致性HOMO、 自相关Cor和熵Ee,其具体公式为:其中,灰度共生矩阵P的尺寸大小为KXK,矩阵中每一个元素表示为P(i,j)。3. 根据权利要求1所述的基于信息挖掘与信息融合的打印文件鉴别方法,其特征在 于:步骤3中所述的建立打印文档字符图像两因子模型,其具体过程为:记打印文档字符图 像的某一维特征为Xij,其中i= 1,2,…,a代表不同打印机,j= 1,2,…,b代表不同字符 形态,建立两因子方差分析模型如下:其中,y为常数;ai表示打印机纹理因子对打印文档字符图像特征产生的效应;0』表 示字符因子对打印文档字符图像特征产生的效应;eu~N(0, 〇 2)表示误差,其误差包括 随机噪声与两个因子之间的交互效应。4. 根据权利要求1所述的基于信息挖掘与信息融合的打印文件鉴别方法,其特征在 于:步骤3中所述的验证打印文档字符图像两因子模型,利用的是两因子方差分析的F检验 方法。5. 根据权利要求1所述的基于信息挖掘与信息融合的打印文件鉴别方法,其特征在 于:步骤4中所述的挖掘出对打印文档字符图像鉴别起干扰作用的字符因子,其具体过程 为:记yj=y+0j是待挖掘的信息,U和0j都是未知参数,不能直接获得,但yj能用以 下方式估计得到:称/《为字符因子的估计值,每个字符图像特征的字符因子估计值都能由上式得到。6. 根据权利要求5所述的基于信息挖掘与信息融合的打印文件鉴别方法,其特征在 于,步骤5中的具体实现过程为:通过信息挖掘得到字符因子后,通过因子分离将其从打印文档字符图像特征中消除, 因子分离后的特征值记为: 将上式中的估计值々/替换为Uj=y+p」,口」恃到: 心=x"-〇 +3』) =(u + a j+ j+ e jj) - ( u + j); =a才e卟i= 1,2,...,a;j= 1,2,...,b \」的新特征值不再包含字符因子,则对一台打印机的特征进行融合,融合方式为求其 所有的打印文档字符图像的特征均值:上式即为来自第i台打印机的打印文档的鉴别特征。7. 根据权利要求1所述的基于信息挖掘与信息融合的打印文件鉴别方法,其特征在 于:步骤6中所述的判别两份打印文档字符图像是否来自同一台打印机,采用鉴别特征的 欧氏距离进行计算两台打印机之间的特征距离,若距离小于分类阈值e,则判定两份打印 文档来自同一台打印机,否则,判定两份打印文档来自不同打印机。【专利摘要】本专利技术公开了,利用整体高倍放大采集打印文档的单个字符图像,计算每幅图像灰度共生矩阵的四个统计特征,以其作为打印文件的初始鉴别特征。建立初始鉴别特征的两因子模型,通过对常用汉字、数字和英文字母的信息挖掘,得到各自的字符因子。分离初始鉴别特征的字符因子,得到的新特征将不本文档来自技高网...
一种基于信息挖掘与信息融合的打印文件鉴别方法

【技术保护点】
一种基于信息挖掘与信息融合的打印文件鉴别方法,其特征在于,包括以下步骤:步骤1:通过可将图像高倍放大的扫描系统,采集得到放大150倍后的文档图像,然后通过字符切割得到单个字符图像;步骤2:采用经典的灰度共生矩阵(GLCM)算法提取每幅字符图像特征,取水平和垂直两个方向,分别对应打印机的扫描和走纸方向,步长各取N步,然后计算灰度共生矩阵(GLCM)的4个统计特征:对比度、一致性、自相关和熵,则每幅字符图像的特征共2×N×4维特征;其中5≤N≤20;步骤3:针对已知打印机的打印文档字符图像特征,建立并验证打印文档字符图像鉴别的两因子模型,所述的两因子为纹理因子和字符因子;所述的纹理因子是打印文件鉴别的贡献因子,字符因子是打印文件鉴别的干扰因子;步骤4:针对已知打印机的打印文档字符图像特征,挖掘出对打印文档字符图像鉴别起干扰作用的字符因子;步骤5:针对待鉴别的两份打印文档Y1和Y2的字符图像特征,将已挖掘出的字符因子从字符图像特征值中分离,只留下纹理因子,对一份打印文档所有字符图像的纹理因子进行特征融合得到打印文档的鉴别特征;步骤6:计算两份打印文档Y1和Y2之间的特征距离,通过阈值分类方法判定两份打印文档是否来自同一打印机。...

【技术特征摘要】

【专利技术属性】
技术研发人员:陈庆虎熊海亚
申请(专利权)人:武汉珞珈博研科技有限责任公司
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1