一种针对保密文件的识别方法技术

技术编号:26763212 阅读:31 留言:0更新日期:2020-12-18 23:22
本发明专利技术涉及一种针对保密文件的识别方法,包括如下几个步骤:第一步、预处理;第二步、文本检测;第三步、光学字符识别;第四步、从照片中提取关键字,查看是否为涉密文件;第五步、通过保密文件的OCR模板查看是否为涉密文件;第六步、EXIF信息附助;第七步、设置可疑系数,上传至后台管理员;第八步、文档部分查询;第九步、提高扫描效率。本发明专利技术针对保密文件的检测,不仅利用现有的OCR技术,而且针对保密文件的特性,生成了多套模板,提高了保密文件的识别率,以及解析速度。

【技术实现步骤摘要】
一种针对保密文件的识别方法
本专利技术涉及文件识别领域,特别涉及一种一种针对保密文件的识别方法。
技术介绍
一直以来,基于纸质涉密文件的管理,各公司有一套严谨的管理制度,使得保密工作有条不紊进行着。随着技术的发展,电子文档普及后,为了保障文档的安全存储,通常开始统一使用特殊加密U盘,使用者必须输入用户名和密码,完成登陆后,才可以查看文件,这样也基本杜绝了电子文件外泄。但是,随着技术的发展,新时期的保密工作,早已不再是管理好单纯的纸质文件和电子文档了。高像素,智能手机的普及,给文件保密工作带来了新的难题。在文件的流转过程中,部分人员只需要使用随身携带的智能手机,对着电脑显示器,或是纸质文件,轻松一拍,就能得到高清画质的内容图片。此前,发生过一些内部文件的外泄事情,主要就是手机翻拍图片,传至互联网上,带来恶劣的影响。基于这样的情况,一方面,我们要进一步完善涉密文件的管理,加强员工教育,禁止员工将涉密文件以任何形式存入手机。另一方面,我们是不是也应该积极利用新兴技术,加强对手机照片、指定格式文档的监控处理。
技术实现思路
本专利技术要解决的技术问题是提供一种识别率高且可靠性较好的针对保密文件的识别方法。实现本专利技术目的的技术方案是提供一种针对保密文件的识别方法,包括如下几个步骤:第一步、预处理:首先需要接收图像相关数据,使其水平竖直方向垂直,接下来使用算法进行检测是否为保密文件,最终二值化方便识别;有三种方案可以来识别图像;1.高阈值的自适应二值化技术;2.卷积神经网络(CNN);3.Haar特征分类器;第二步、文本检测:有两种方案来完成文本检测;1.通过链接组件检测文本;2.使用网格对文本进行检测;先用连接组件算法,然后用网络方法对结果进行优化;第三步、光学字符识别:使用卷积神经网络(CNN)接收相关字体进行培训,输出部分,通过对比来提升概率:使用涉密文件常用字体作为人工识别样本进行训练,根据保密文件的特性,很多文字是等宽的,使用图片非均匀分割技术得到每一个字的近似宽度,给出一个近似的分类,然后再用卷积神经网络文法识别;第四步、从照片中提取关键字,查看是否为涉密文件;第五步、通过保密文件的OCR模板查看是否为涉密文件:通过常规的OCR算法,的确可以查找到部分文件;但是图像处理是一个很复杂的过程,为了提高软件的识别率;配套使用了识别模板;然后使用模板匹配法去处理图片;保密文件的顶部一般有“保密“字样,使模板和原图中同样大小的一块区域去对,然后平移到下一个像素,依然进行同样的操作,所有位置对比完后,可以得到匹配度的数值,然后可以设置阈值对比;第六步、EXIF信息附助:通过预读图片文件的EXIF信息,得到图片拍摄的地理位置信息;对于工作时间、办公区域附近生成的图片将加强解析,这样可以进一步提高扫描检测准确性。进一步的,第一步中,优选高阈值的自适应二值化技术。进一步的,第四步中,根据预定义的关键词,包括机密、秘密、内部事项、薪酬、规划,检验是否为涉密文件。进一步的,第五步中,实际在设置模板时,还可以根据文件的字体,语言的格式,归纳总结出保密文件相关的模板;然后有以下几种算法,可以得出匹配度;。本专利技术具有积极的效果:(1)本专利技术针对保密文件的检测,不仅利用现有的OCR技术,而且针对保密文件的特性,生成了多套模板,提高了保密文件的识别率,以及解析速度。(2)本专利技术为了加强保密文件的识别,系统加入了地理位置判断。如果是在工作地点拍设的照片等,加强检测。具体实施方式(实施例1)本实施例的针对保密文件的识别方法是利用现有的图片OCR技术以及文档扫描技术,对手机里的文档和图片进行扫描比对,验证其是否含有关键字。根据预定义的关键词,如机密、秘密、内部事项、薪酬、规划等,对手机内存储的文档、图片文件开展扫描检测,并反馈最终结果,提示用户对可能含有敏感词的文档、图片文件进行处理。在这项功能中,最为关键的是对图片文件的扫描检测。基于优化和改进的OCR算法,对图片中的每个像素进行解析,辅助判断文件格式、使用字体、文字颜色等综合特性,设置“保密文件”模板库,更准确获得图片中包含的文字内容。本实施例的针对保密文件的识别方法具体包括如下几个步骤:第一步、预处理:首先需要接收图像相关数据,使其水平竖直方向垂直,接下来使用算法进行检测是否为保密文件,最终二值化方便识别。有三种方案可以来识别图像。1.高阈值的自适应二值化技术。2.卷积神经网络(CNN)。3.Haar特征分类器。优选高阈值的自适应二值化技术。第二步、文本检测:有两种方案来完成文本检测。1.通过链接组件检测文本。2.使用网格对文本进行检测。通过链接组件检测文件时,有很多嘈杂文本,需要另外设置阈值来过滤。主要通过最近的字符组合成词语,来了解其语义。文字形成行后,再按照高度来判断文本是否为同一行。通过网格对文本进行检测,避免了很多嘈杂文本。通过两种方法的结合,来完成文本的检测。先用连接组件算法,然后用网络方法对结果进行优化。第三步、光学字符识别:使用卷积神经网络(CNN)接收相关字体进行培训,输出部分,通过对比来提升概率:使用涉密文件常用字体作为人工识别样本进行训练,根据保密文件的特性,很多文字是等宽的,使用图片非均匀分割技术得到每一个字的近似宽度,给出一个近似的分类,然后再用卷积神经网络文法识别。两重结合,提高文字的识别率。第四步、从照片中提取关键字,查看是否为涉密文件。根据预定义的关键词,如机密、秘密、内部事项、薪酬、规划等,检验是否为涉密文件。第五步、通过保密文件的OCR模板查看是否为涉密文件:通过常规的OCR算法,的确可以查找到部分文件。但是图像处理是一个很复杂的过程,为了提高软件的识别率。配套使用了识别模板。然后使用模板匹配法去处理图片。保密文件的顶部一般有“保密“字样,使模板和原图中同样大小的一块区域去对,然后平移到下一个像素,依然进行同样的操作,所有位置对比完后,可以得到匹配度的数值,然后可以设置阈值对比。实际在设置模板时,还可以根据文件的字体,语言的格式等,归纳总结出保密文件相关的模板。然后有以下几种算法,可以得出匹配度。第六步、EXIF信息附助:通过预读图片文件的EXIF信息,得到图片拍摄的地理位置信息。对于工作时间、办公区域附近生成的图片将加强解析,这样可以进一步提高扫描检测准确性。根据图片的相似度,拍摄地理位置信息,共同来判断图片的涉密可能性。对于疑似度高的,直接隔离删除,上传至后台管理员。其他的可以提醒用户自行检查。显然,上述实施例仅仅是为清楚地说明本专利技术所作的举例,而并非是对本专利技术的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而这些属于本专利技术的精神所本文档来自技高网...

【技术保护点】
1.一种针对保密文件的识别方法,其特征在于包括如下几个步骤:/n第一步、预处理:首先需要接收图像相关数据,使其水平竖直方向垂直,接下来使用算法进行检测是否为保密文件,最终二值化方便识别;/n有三种方案可以来识别图像;1. 高阈值的自适应二值化技术; 2. 卷积神经网络(CNN); 3. Haar特征分类器;/n第二步、文本检测:有两种方案来完成文本检测;1.通过链接组件检测文本;2.使用网格对文本进行检测;先用连接组件算法,然后用网络方法对结果进行优化;/n第三步、光学字符识别:使用卷积神经网络(CNN)接收相关字体进行培训,输出部分,通过对比来提升概率:使用涉密文件常用字体作为人工识别样本进行训练,根据保密文件的特性,很多文字是等宽的,使用图片非均匀分割技术得到每一个字的近似宽度,给出一个近似的分类,然后再用卷积神经网络文法识别;/n第四步、从照片中提取关键字,查看是否为涉密文件;/n第五步、通过保密文件的OCR模板查看是否为涉密文件:通过常规的OCR算法,的确可以查找到部分文件;但是图像处理是一个很复杂的过程,为了提高软件的识别率;配套使用了识别模板;然后使用模板匹配法去处理图片;/n保密文件的顶部一般有“保密“字样,使模板和原图中同样大小的一块区域去对,然后平移到下一个像素,依然进行同样的操作,所有位置对比完后,可以得到匹配度的数值,然后可以设置阈值对比;/n第六步、EXIF信息附助:通过预读图片文件的EXIF信息,得到图片拍摄的地理位置信息;对于工作时间、办公区域附近生成的图片将加强解析,这样可以进一步提高扫描检测准确性。/n...

【技术特征摘要】
1.一种针对保密文件的识别方法,其特征在于包括如下几个步骤:
第一步、预处理:首先需要接收图像相关数据,使其水平竖直方向垂直,接下来使用算法进行检测是否为保密文件,最终二值化方便识别;
有三种方案可以来识别图像;1.高阈值的自适应二值化技术;2.卷积神经网络(CNN);3.Haar特征分类器;
第二步、文本检测:有两种方案来完成文本检测;1.通过链接组件检测文本;2.使用网格对文本进行检测;先用连接组件算法,然后用网络方法对结果进行优化;
第三步、光学字符识别:使用卷积神经网络(CNN)接收相关字体进行培训,输出部分,通过对比来提升概率:使用涉密文件常用字体作为人工识别样本进行训练,根据保密文件的特性,很多文字是等宽的,使用图片非均匀分割技术得到每一个字的近似宽度,给出一个近似的分类,然后再用卷积神经网络文法识别;
第四步、从照片中提取关键字,查看是否为涉密文件;
第五步、通过保密文件的OCR模板查看是否为涉密文件:通过常规的OCR算法,的确可以查找到部分文件;但是图像处理是一个很复杂的过程,为了提高软件的识别率;配套...

【专利技术属性】
技术研发人员:冯迪汤丹支劲超顾梅
申请(专利权)人:国网江苏省电力有限公司常州供电分公司国网江苏省电力有限公司国家电网有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1