一种基于中文汉字复杂度的抗打印扫描文本水印算法制造技术

技术编号:11740237 阅读:240 留言:0更新日期:2015-07-16 00:06
近年来,内网安全事件逐年上升,重要信息经由文档打印泄露已经成为企事业单位需要解决重大问题之一。为了控制打印泄密的风险,现有研究嵌入不可见水印的算法。使用文档水印算法,把打印者身份信息作为水印嵌入到文档中。其特点是算法对文档的修改,人眼难以识别。由于打印、扫描、复印等过程,引入了像素失真(打印采用点阵表示像素灰度,转化采用半色调处理)和几何失真,对水印的提取产生了较大干扰。本发明专利技术提出一种抗打印、复印、拍照的强鲁棒文本水印算法,并根据文字复杂度控制水印嵌入以确保水印不可见性,从而达到解决打印追踪问题的目的。

【技术实现步骤摘要】

本专利技术涉及信息安全中的数字水印领域,具体说本专利技术给出了一种基于中文汉字 复杂度的抗打印扫描文本水印算法。
技术介绍
近年来,内网安全事件逐年上升,造成的巨大经济损失达,有报道显示,继邮件泄 密、移动存储泄密之后,打印机泄密成为第三大泄密方式。重要信息经由文档打印泄露已经 成为企事业单位需要解决重大问题之一。为了控制打印泄密的风险,现有研宄主要围绕以 下几个方向展开: 第一:禁止打印。研宄各种打印拦截方式,特点是原理简单,易于实施,但难以 满足实际要求。 第二:审计打印。分为审计集中打印和本地打印。针对集中打印,研宄在服务器 端获取审计信息,例如提交打印任务的终端信息(IP,MAC,计算机名,文档名等);针对本地 打印,研宄截获打印信息的方式。通常在终端安装代理软件,使用监控打印队列或HOOK打 印相关API等多种方式,记录使用者、文档标题等信息。该方向的研宄难点为内容审计,即 如何在电子文档转换为EMF文件前、后,根据关键词进行深度审计。这个思路最大的缺陷在 于,一旦出现打印泄密,即使能检索到相关内容审计信息,也只能缩小嫌疑者范围,难以准 确定位。例如,同一份文档被多人打印,贝I」通过审计信息,只能确定众多打印者,但无法进一 步准确确定具体责任人。 第三:嵌入可见标记。在打印的文档插入可见模式(例如二维码),或有意义背景 文字,或底纹。其中,嵌入条形码或二维码等可见模式这一方式,因可见模式容易被定位,故 而也容易被去除(剪切、涂抹等),不适合用于解决打印追踪问题。就嵌入背景文字这一方 式而言,虽然若其嵌入区域与前景、正文区域重叠,则不宜被去除,但由于影响文档视觉效 果,因此也不是打印追踪的理想解决方案。在文档中嵌入可见、可识别的底纹,是此类研宄 的一个重点。有研宄尝试生成类似于自然纸张纹理的底纹,即使对打印文档格式要求严格 的应用,就视觉效果而言,此类标记也是可接受的。然而,该类底纹在多次复印后,有较大失 真,也不适合解决打印追踪问题。 第四:嵌入不可见水印。使用文档水印算法,把打印者身份信息作为水印嵌入到文 档中。其特点是算法对文档的修改,人眼难以识别。由于打印、扫描、复印等过程,引入了像 素失真(打印采用点阵表示像素灰度,转化采用半色调处理)和几何失真,对水印的提取产 生了较大干扰,因此,此类研宄的集中于在确保水印不可见性前提下,如何增强水印算法稳 健性。 根据上述可知,打印追踪更多使用在文档中嵌入不可见水印思路。本文提出一种 抗打印、复印、拍照的强鲁棒文本水印算法,并根据文字复杂度控制水印嵌入以确保水印不 可见性。为此,首先介绍了文本水印算法研宄现状,然后对算法稳健性和透明性进行了分析 和验证,最后给出了算法描述和仿真评估。 相较于图像、视频等载体,文本文档纹理简单,冗余度低,在其中嵌入水印的难度 已经较大,要求水印能抵抗打印扫描,则需要解决的问题更多。打印机一般会对文档进行半 色调处理,即用黑白点阵或少量几种颜色来代表电子文档中更丰富的灰度层次和色彩。这 个过程本身已经引入了量化误差,加上纸张的厚薄、光洁度、打印机墨粉质量等影响,。并 且,打印扫描等过程,引入像素失真(电子文档像素使用灰度等方式表示,打印后灰度层次 则使用点阵中黑色点的比例来表示,转换过程使用半色调等处理)和几何失真(RST:旋转、 缩放、平移)等干扰,"若打印机用户没有将纸张在纸仓中摆放到位,加上打印机传送纸张 的机械部件性能的不稳定性,打印后的文档图像可能存在轻微的旋转、平移、错切等几何失 真。"对算法的稳健性要求较高,抗打印扫描文档水印算法的设计难度也相应地更高。目前 已知的主要算法,都存在一些不足: 行移算法:调整文本的行间距以嵌入水印。即:细微上移或下移文本行,使相邻行 间距产生人眼难以识别的差距(文献指出,文本行移不超过1/300英寸时,人眼不易察觉)。 算法特点是稳健性强,可以抵抗多次复印攻击。基于此核心思想,后续算法尝试改进水印算 法透明性和容量,缺点嵌入容量过小。 字移算法:调整文本字间距以嵌入水印。即:细微左移或右移字符,使相邻字符间 距产生人眼难以识别的差距(文献指出,文本字符移动不超过1/150英寸时,人眼不易察 觉)。字移算法的信息嵌入量有明显提高。基于此思路,后续算法主要研宄解决透明性和稳 健性矛盾。即,一方面,为了提高稳健性,需要尽可能增加字符间距的差异,避免噪声干扰引 起误判;另一方面,为了避免调整字间距后产生文本没有对齐的视觉效果(不同行不同列, 字符根据水印信息需要左移或右移),需要尽可能减少字符间距的差异。例如,有的算法采 用这样的策略:固定每行首尾字符位置,调整其他部份间距,并削去部份字符边缘(缩减字 符宽度,增加可调节的字符间距)。这些算法需要解决的问题有:对于小字号(五号)文本, 字移算法容易形成文档不整齐;对于大字号文本,字移算法容易暴露字间距异常。 像素调整算法:为了便于识别、定位文字和行,也由于像素的灰度和色彩信息在打 印和扫描过程中容易丢失,所以常将文档转换为二值图像后再嵌入和提取水印。基于黑白 像素总数调整的算法,通常利用黑色像素数量关系嵌入水印。例如,基于字符阶梯边缘算 法,选择对视觉影像较小的阶梯边缘作为像素翻转的对象,利用字符上下两部份黑色像素 数量的多少等关系嵌入水印。还有,亓氏算法,利用单个字符黑色像素总数与整行文字黑色 像素总数比例基本不变的特点,调整单个字符黑色像素个数来嵌入水印。基于像素调整的 算法,以调整黑白像素数量比例关系嵌入水印,其抵抗复印的能力较弱。 变换域算法:调整文档的变换域系数以嵌入水印。典型算法有,对文档图像进行离 散小波变换,通过调整特定位置系数(N和N+1级细节系数)符号,使得符号为正的系数个 数与符号为负的系数个数的大小关系与水印信息关联。也有调整离散傅立叶变换、离散余 弦变换系数的算法。这类方法的特点是对嵌入位置和提取位置的一致与否比较敏感,如果 因为缩放、旋转或平移等产生位置失同步,水印信息可能完全无法提取。因此,比较适合于 文挡有边框,易于同步的应用场景。 经研宄发现,自然字符自身存在高度差,并且,这种差异不会产生字符高低不齐的 视觉效果。利用这一特点,提出一种基于字符高度差关系的抗打印扫描算法,并提出基于文 字复杂度的视觉模型,利用该视觉模型控制算法透明性。
技术实现思路
基于上述背景,本专利技术基于字符高度差关系的抗打印扫描水印算法。 具体实现过程需要的一些定义和概念: 1、字符图像 令(^表示字符图像。字符图像是包括一个汉字的最小矩形图像区域。最小意味 着,无论该区域的高或宽再小一个像素,形成汉字形状的像素都会出现丢失。 2、字符图像高度 令比表示自然文档第i个字符图像的高度(单位是像素),令H= {hi|i= 1- N}表示自然文档所有字符高度的集合,令圮和= 表示包含失真(打印、扫描、拍 照…)的文档的字符高度及其集合。 3、字符图像高度差 令也=h「hi+1表示原始文档相邻字符高度差,用【主权项】1. 基于中文汉字复杂度的抗打印扫描文本水印算法,其特征在于:提出一种基于视觉 模型的字符拉升抗打印扫描文档水印算法,对文档字符进行微调,在难以被察觉的情况下, 将文档打印者身份信息嵌入文本。含带水印本文档来自技高网
...

【技术保护点】
基于中文汉字复杂度的抗打印扫描文本水印算法,其特征在于:提出一种基于视觉模型的字符拉升抗打印扫描文档水印算法,对文档字符进行微调,在难以被察觉的情况下,将文档打印者身份信息嵌入文本。含带水印的文本,即使被污损、翻印,经扫描或拍照后,水印都能被提取。实验结果显示,该算法准确率极高。该算法具有一定的普适性。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨榆雷敏胡若翔
申请(专利权)人:北京邮电大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1