一种针对保密文件的识别方法技术

技术编号：26763212 阅读：52 留言：0更新日期：2020-12-18 23:22

本发明专利技术涉及一种针对保密文件的识别方法，包括如下几个步骤：第一步、预处理；第二步、文本检测；第三步、光学字符识别；第四步、从照片中提取关键字，查看是否为涉密文件；第五步、通过保密文件的OCR模板查看是否为涉密文件；第六步、EXIF信息附助；第七步、设置可疑系数，上传至后台管理员；第八步、文档部分查询；第九步、提高扫描效率。本发明专利技术针对保密文件的检测，不仅利用现有的OCR技术，而且针对保密文件的特性，生成了多套模板，提高了保密文件的识别率，以及解析速度。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对保密文件的识别方法
本专利技术涉及文件识别领域，特别涉及一种一种针对保密文件的识别方法。
技术介绍
一直以来，基于纸质涉密文件的管理，各公司有一套严谨的管理制度，使得保密工作有条不紊进行着。随着技术的发展，电子文档普及后，为了保障文档的安全存储，通常开始统一使用特殊加密U盘，使用者必须输入用户名和密码，完成登陆后，才可以查看文件，这样也基本杜绝了电子文件外泄。但是，随着技术的发展，新时期的保密工作，早已不再是管理好单纯的纸质文件和电子文档了。高像素，智能手机的普及，给文件保密工作带来了新的难题。在文件的流转过程中，部分人员只需要使用随身携带的智能手机，对着电脑显示器，或是纸质文件，轻松一拍，就能得到高清画质的内容图片。此前，发生过一些内部文件的外泄事情，主要就是手机翻拍图片，传至互联网上，带来恶劣的影响。基于这样的情况，一方面，我们要进一步完善涉密文件的管理，加强员工教育，禁止员工将涉密文件以任何形式存入手机。另一方面，我们是不是也应该积极利用新兴技术，加强对手机照片、指定格式文档的监控处理。专利本文档来自技高网...

【技术保护点】
1.一种针对保密文件的识别方法，其特征在于包括如下几个步骤：/n第一步、预处理：首先需要接收图像相关数据，使其水平竖直方向垂直，接下来使用算法进行检测是否为保密文件，最终二值化方便识别；/n有三种方案可以来识别图像；1. 高阈值的自适应二值化技术； 2. 卷积神经网络（CNN）； 3. Haar特征分类器；/n第二步、文本检测：有两种方案来完成文本检测；1.通过链接组件检测文本；2.使用网格对文本进行检测；先用连接组件算法，然后用网络方法对结果进行优化；/n第三步、光学字符识别：使用卷积神经网络（CNN）接收相关字体进行培训，输出部分，通过对比来提升概率：使用涉密文件常用字体作为人工识别样本进...

【技术特征摘要】
1.一种针对保密文件的识别方法，其特征在于包括如下几个步骤：
第一步、预处理：首先需要接收图像相关数据，使其水平竖直方向垂直，接下来使用算法进行检测是否为保密文件，最终二值化方便识别；
有三种方案可以来识别图像；1.高阈值的自适应二值化技术；2.卷积神经网络（CNN）；3.Haar特征分类器；
第二步、文本检测：有两种方案来完成文本检测；1.通过链接组件检测文本；2.使用网格对文本进行检测；先用连接组件算法，然后用网络方法对结果进行优化；
第三步、光学字符识别：使用卷积神经网络（CNN）接收相关字体进行培训，输出部分，通过对比来提升概率：使用涉密文件常用字体作为人工识别样本进行训练，根据保密文件的特性，很多文字是等宽的，使用图片非均匀分割技术得到每一个字的近似宽度，给出一个近似的分类，然后再用卷积神经网络文法识别；
第四步、从照片中提取关键字，查看是否为涉密文件；
第五步、通过保密文件的OCR模板查看是否为涉密文件：通过常规的OCR算法，的确可以查找到部分文件；但是图像处理是一个很复杂的过程，为了提高软件的识别率；配套...

【专利技术属性】
技术研发人员：冯迪，汤丹，支劲超，顾梅，
申请(专利权)人：国网江苏省电力有限公司常州供电分公司，国网江苏省电力有限公司，国家电网有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人