一种针对保密文件的识别方法技术

技术编号:26763212 阅读:52 留言:0更新日期:2020-12-18 23:22
本发明专利技术涉及一种针对保密文件的识别方法,包括如下几个步骤:第一步、预处理;第二步、文本检测;第三步、光学字符识别;第四步、从照片中提取关键字,查看是否为涉密文件;第五步、通过保密文件的OCR模板查看是否为涉密文件;第六步、EXIF信息附助;第七步、设置可疑系数,上传至后台管理员;第八步、文档部分查询;第九步、提高扫描效率。本发明专利技术针对保密文件的检测,不仅利用现有的OCR技术,而且针对保密文件的特性,生成了多套模板,提高了保密文件的识别率,以及解析速度。

【技术实现步骤摘要】
一种针对保密文件的识别方法
本专利技术涉及文件识别领域,特别涉及一种一种针对保密文件的识别方法。
技术介绍
一直以来,基于纸质涉密文件的管理,各公司有一套严谨的管理制度,使得保密工作有条不紊进行着。随着技术的发展,电子文档普及后,为了保障文档的安全存储,通常开始统一使用特殊加密U盘,使用者必须输入用户名和密码,完成登陆后,才可以查看文件,这样也基本杜绝了电子文件外泄。但是,随着技术的发展,新时期的保密工作,早已不再是管理好单纯的纸质文件和电子文档了。高像素,智能手机的普及,给文件保密工作带来了新的难题。在文件的流转过程中,部分人员只需要使用随身携带的智能手机,对着电脑显示器,或是纸质文件,轻松一拍,就能得到高清画质的内容图片。此前,发生过一些内部文件的外泄事情,主要就是手机翻拍图片,传至互联网上,带来恶劣的影响。基于这样的情况,一方面,我们要进一步完善涉密文件的管理,加强员工教育,禁止员工将涉密文件以任何形式存入手机。另一方面,我们是不是也应该积极利用新兴技术,加强对手机照片、指定格式文档的监控处理。专利本文档来自技高网...

【技术保护点】
1.一种针对保密文件的识别方法,其特征在于包括如下几个步骤:/n第一步、预处理:首先需要接收图像相关数据,使其水平竖直方向垂直,接下来使用算法进行检测是否为保密文件,最终二值化方便识别;/n有三种方案可以来识别图像;1. 高阈值的自适应二值化技术; 2. 卷积神经网络(CNN); 3. Haar特征分类器;/n第二步、文本检测:有两种方案来完成文本检测;1.通过链接组件检测文本;2.使用网格对文本进行检测;先用连接组件算法,然后用网络方法对结果进行优化;/n第三步、光学字符识别:使用卷积神经网络(CNN)接收相关字体进行培训,输出部分,通过对比来提升概率:使用涉密文件常用字体作为人工识别样本进...

【技术特征摘要】
1.一种针对保密文件的识别方法,其特征在于包括如下几个步骤:
第一步、预处理:首先需要接收图像相关数据,使其水平竖直方向垂直,接下来使用算法进行检测是否为保密文件,最终二值化方便识别;
有三种方案可以来识别图像;1.高阈值的自适应二值化技术;2.卷积神经网络(CNN);3.Haar特征分类器;
第二步、文本检测:有两种方案来完成文本检测;1.通过链接组件检测文本;2.使用网格对文本进行检测;先用连接组件算法,然后用网络方法对结果进行优化;
第三步、光学字符识别:使用卷积神经网络(CNN)接收相关字体进行培训,输出部分,通过对比来提升概率:使用涉密文件常用字体作为人工识别样本进行训练,根据保密文件的特性,很多文字是等宽的,使用图片非均匀分割技术得到每一个字的近似宽度,给出一个近似的分类,然后再用卷积神经网络文法识别;
第四步、从照片中提取关键字,查看是否为涉密文件;
第五步、通过保密文件的OCR模板查看是否为涉密文件:通过常规的OCR算法,的确可以查找到部分文件;但是图像处理是一个很复杂的过程,为了提高软件的识别率;配套...

【专利技术属性】
技术研发人员:冯迪汤丹支劲超顾梅
申请(专利权)人:国网江苏省电力有限公司常州供电分公司国网江苏省电力有限公司国家电网有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1