一种基于直方图二值化的纸质敏感文件溯源方法技术

技术编号:27368260 阅读:53 留言:0更新日期:2021-02-19 13:52
本发明专利技术提供一种基于直方图二值化的纸质敏感文件溯源方法,涉及信息识别技术领域,包括以下步骤:S1:获取敏感文档图片;S2:对获取的文档图片预处理,去除干扰区域;S3:对敏感区域进行灰度直方图增强;S4:对图像二值化;S5:解码二值化图像隐写信息;S6:隐写信息通过校验,则溯源出隐写信息;反之则未检测到隐写信息。本发明专利技术不易被泄密者发现,且无需对每种字体设计字形字库,使用的直方图二值化算法,能有效提高文档打印涉密的管控力度,集成到DLP系统中,能增强DLP系统对非确切文档的溯源、追踪能力,确保及时、有效的溯源机密文档外泄途径,降低企业和政府部门损失,且具有很好的抗压缩、抗斜拍、抗阴影、抗污损能力。抗污损能力。抗污损能力。

【技术实现步骤摘要】
一种基于直方图二值化的纸质敏感文件溯源方法


[0001]本专利技术涉及信息识别
,尤其是,本专利技术涉及一种基于直方图二值化的纸质敏感文件溯源方法。

技术介绍

[0002]数据是信息系统中最为核心的资产,随着信息技术的飞速发展,人类生产生活中产生的各类数据呈指数级增长,这些数据具有重要价值。因此数据安全领域已成为企业和国家的重点关注领域。目前许多企业和政府部门采用电子文档办公,并通过打印、拍照、复印等途径将文档内容呈现在纸介质上,以方便日常阅读和办公。对于敏感信息,如企业合同和政府部门涉密文件,由于纸介质难以追溯的特性,许多机密信息会通过纸质文档泄露出去,给企业和国家造成重大损失。
[0003]传统数据防泄漏(Data Leakage Prevention,DLP)领域大多对电子文档等确切数据进行有效的安全防护,无法对非确切数据(如打印、复印、拍照)进行有效的监控、拦截和追溯。因此需要对文档传播路径进行额外管控,防止机密信息通过文档外泄。
[0004]已有的纸质文档溯源方法分为两类:在纸介质上嵌入纹路、点阵、二维码等可见信息(明水印);将溯源信息隐藏到自定义的字形字库中(字形字库水印),例如中国专利专利技术专利CN107239713A涉及一种敏感内容数据信息防护方法和系统。该方法包括:1)设计基因字库文件,包括字符和字符的安全编码,每个字符的安全编码与该字符在标准字库中的标准编码形成多对一的映射关系;2)将基因字库文件设置为禁止嵌入模式,并进行整体加密后保存在服务器上,不直接在客户端的操作系统中安装;3)将标准字库中的标准编码转换为基因字库中相应字符的安全编码,并将需要保护的敏感内容数据对应的标准编码的字符转换为安全编码的字符后存储;4)在客户端部署打印监控服务程序,实时截获打印文档的内容数据,并过滤受保护的敏感内容数据。该专利技术解决了现有技术中通过安全字库加密技术防止数据泄密方面存在的安全性相对较低的问题。
[0005]但是上述两类溯源方法具有以下缺点:明水印虽简单方便,但易被泄密者抹去溯源信息,从而无法定位、追溯泄密源。字形字库水印虽不易被泄密者察觉,但需要为计算机系统中每种字体设计字形字库,工作量大;并且文字一旦被人为污损,也无法正常提取。
[0006]因此为了解决上述问题,设计一种合理的基于直方图二值化的纸质敏感文件溯源方法对我们来说是很有必要的。

技术实现思路

[0007]本专利技术的目的在于提供一种不易被泄密者发现,且无需对每种字体设计字形字库,使用的直方图二值化算法,具有执行简单、识别准确、符合现实运用等特点,能有效提高文档打印涉密的管控力度,集成到DLP系统中,能增强DLP系统对非确切文档的溯源、追踪能力,确保及时、有效的溯源机密文档外泄途径,降低企业和政府部门损失,且具有很好的抗压缩、抗斜拍、抗阴影、抗污损能力的基于直方图二值化的纸质敏感文件溯源方法。
[0008]为达到上述目的,本专利技术采用如下技术方案得以实现的:一种基于直方图二值化的纸质敏感文件溯源方法,包括以下步骤:S1:获取敏感文档图片;S2:对获取的文档图片预处理,去除干扰区域;S3:定位文档敏感区域,对敏感区域进行灰度直方图增强;S4:计算增强后的区域图像二值化阈值,对图像二值化;S5:解码二值化图像隐写信息;S6:判断隐写信息是否可以通过校验;若可以则溯源出隐写信息;反之则未检测到隐写信息。
[0009]作为本专利技术的优选,执行步骤S1之前,需要在敏感文档中隐藏溯源信息。
[0010]作为本专利技术的优选,在敏感文档中隐藏溯源信息具体包括:敏感文档打印时,系统实时hook打印请求,获取打印页大小,然后根据页面大小,自适应的将溯源信息隐藏到打印文件中。
[0011]作为本专利技术的优选,执行步骤S2时,敏感文档图片包括打印件、复印件、扫描件和照片。
[0012]作为本专利技术的优选,步骤S2具体包括:S21:利用透视变换将图片校正;S22:利用高斯滤波消除打印、复印、扫描、拍照时产生的随机噪点;S23:利用图片腐蚀去除图片污染区域。
[0013]作为本专利技术的优选,执行步骤S3时,将图片转成灰度图,对敏感区域进行图像增强,突出敏感文档中的隐藏内容。
[0014]作为本专利技术的优选,执行步骤S4时,判断直方图是否为双峰图像;若是,则使用谷底最小值算法计算出最佳阈值;反之则采用模糊集阈值算法计算最佳阈值;若上述两种方法均无法获取阈值,则取直方图像素平均值作为最佳阈值;最后通过阈值,将图像二值化。
[0015]作为本专利技术的优选,执行步骤S5时,根据阈值化后的图像,初步计算出溯源信息。
[0016]作为本专利技术的优选,执行步骤S6时,对初步计算出的溯源信息进行BCH和CRC校验,若均能通过校验则溯源出隐写信息;任意一项校验没通过则直接反馈未检测到隐写信息。
[0017]本专利技术一种基于直方图二值化的纸质敏感文件溯源方法有益效果在于:不易被泄密者发现,且无需对每种字体设计字形字库,使用的直方图二值化算法,具有执行简单、识别准确、符合现实运用等特点,能有效提高文档打印涉密的管控力度,集成到DLP系统中,能增强DLP系统对非确切文档的溯源、追踪能力,确保及时、有效的溯源机密文档外泄途径,降低企业和政府部门损失,且具有很好的抗压缩、抗斜拍、抗阴影、抗污损能力。
附图说明
[0018]图1为本专利技术一种基于直方图二值化的纸质敏感文件溯源方法的流程示意图。
具体实施方式
[0019]以下是本专利技术的具体实施例,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。
[0020]现在将参照附图来详细描述本专利技术的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的模块和结构的相对布置不限制本专利技术的范围。
[0021]以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本专利技术及其应用或使用的任何限制。
[0022]对于相关领域普通技术人员已知的技术、方法及系统可能不作详细讨论,但在适当情况下,技术、方法及系统应当被视为授权说明书的一部分。
[0023]实施例:如图1所示,仅仅为本专利技术的其中一个的实施例,一种基于直方图二值化的纸质敏感文件溯源方法,包括以下步骤:S1:获取敏感文档图片;需要注意的是,为了对敏感文件进行本专利技术的方法的溯源,需要保证也是采用相应方式进行隐写,才能进行溯源,也就是需要在敏感文档中隐藏溯源信息,隐藏和溯源方式都是直接集成到数据防泄漏(Data Leakage Prevention,DLP)系统中。
[0024]在敏感文档中隐藏溯源信息具体包括:敏感文档打印时,DLP系统实时hook电脑的打印请求,获取打印页大小,然后根据页面大小,自适应的按照页面大小将溯源信息编码、打散,并依次隐藏到打印文件中。例如隐藏的溯源信息为“MAC:00-C1-40-82-0A-1A;IPV4:168.10.10.155;USER:Tong”,那么将溯源信息编码、打散,并按照一定的顺序将编码隐藏在打印页本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于,包括以下步骤:S1:获取敏感文档图片;S2:对获取的文档图片预处理,去除干扰区域;S3:定位文档敏感区域,对敏感区域进行灰度直方图增强;S4:计算增强后的区域图像二值化阈值,对图像二值化;S5:解码二值化图像隐写信息;S6:判断隐写信息是否可以通过校验;若可以则溯源出隐写信息;反之则未检测到隐写信息。2.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于:执行步骤S1之前,需要在敏感文档中隐藏溯源信息。3.根据权利要求2所述的一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于:在敏感文档中隐藏溯源信息具体包括:敏感文档打印时,系统实时hook打印请求,获取打印页大小,然后根据页面大小,自适应的将溯源信息隐藏到打印文件中。4.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于:执行步骤S1时,敏感文档图片包括打印件、复印件、扫描件和照片。5.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于,步骤S2具体包括:S...

【专利技术属性】
技术研发人员:张黎杨大志吴洋李蓓蓓
申请(专利权)人:合肥闪捷信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1