基于卷积神经网络的敏感文件检测方法技术

技术编号：24456188 阅读：23 留言：0更新日期：2020-06-10 15:37

本发明专利技术公开了一种基于卷积神经网络的敏感文件检测方法，步骤如下：1)针对数据集训练出词向量特征；2)将训练好的词向量进行组合得到文档的向量特征；3)将上述向量作为基于卷积神经网络的深度学习的输入特征，并作为方法运行参数一起参与迭代训练过程。通过本发明专利技术的技术方案，实现了对国家电力发展战略、国家重大电力项目规划等国家级秘密的国密文件和企业经营数据等涉及企业自身商业秘密的商业文件的敏感信息的过滤，弥补了现有的基于敏感词库检测方法检测效率低、降低漏报率和误报率高的缺点。

Sensitive file detection method based on convolutional neural network

全部详细技术资料下载

【技术实现步骤摘要】
基于卷积神经网络的敏感文件检测方法
本专利技术涉及信息检测与过滤
，尤其涉及一种基于卷积神经网络的敏感文件检测方法。
技术介绍
2017年6月1日正式施行的《国家网络安全法》特别强调了关键信息基础设施敏感信息监测的重要性。电力行业关系国民经济命脉和国家能源安全，如果发生泄密事件，必定会给行业的社会形象及经济效益带来严重的负面影响。建立有效的网络安全监测体系，重要前提是对敏感数据精准识别，而后基于敏感数据形成有效的监测响应方案。电力企业运营过程中的敏感数据主要分为:1)国家电力发展战略、国家重大电力项目规划等国家级秘密的国密文件；2)企业经营数据等涉及企业自身商业秘密的商密文件。本文重点关注如何有效检测企业经营生产中的商密文件。目前电力企业通用的敏感文件检测方法大都依赖于敏感词库，如“秘密、方案、规划、内部资料、标底”等是敏感词库中的部分关键字，通过分词算法等统计出上述关键字在文件中出现的频率，由此判断文件是否属于敏感文件。这种方法的优势是速度快，缺点是具有很高的漏报率和误报率。例如一篇小说含有“不能说的秘密”“规划下一步行动”“我们计划”等词句，根据特征字库统计出小说中含有“秘密”“规划”“计划”的频率，就会将小说误判为敏感办公文件，这样增加了敏感文件复核成本，且人工复核易造成敏感文件的违规扩散。现有的研究仅限于利用词向量和卷积神经网络来解决企业商密类文件检测研究还是空白。
技术实现思路
针对上述问题中的至少之一，本专利技术提供了一种基于卷积神经网络的敏感信息过滤方法，为了解决基于特...

【技术保护点】
1.一种基于卷积神经网络的敏感文件检测方法，其特征在于，包括：/n将文档的语义内容形式表示为类似图像数据的二维矩阵特征形式，针对数据集训练出词向量特征；/n将训练好的词向量进行组合得到文档的向量特征；/n将上述向量特征作为基于卷积神经网络的深度学习的输入特征，并作为方法运行参数一起参与迭代训练过程。/n

【技术特征摘要】
1.一种基于卷积神经网络的敏感文件检测方法，其特征在于，包括：
将文档的语义内容形式表示为类似图像数据的二维矩阵特征形式，针对数据集训练出词向量特征；
将训练好的词向量进行组合得到文档的向量特征；
将上述向量特征作为基于卷积神经网络的深度学习的输入特征，并作为方法运行参数一起参与迭代训练过程。

2.根据权利要求1所述的基于卷积神经网络的敏感文件检测方法，其特征在于，其中，基于卷积神经网络的深度学习形成词向量矩阵，
将所述词向量特征提取矩阵所形成的二维数据矩阵输入所述卷积神经网络...

【专利技术属性】
技术研发人员：孔令武，田峥，黎曦，关勇，
申请(专利权)人：北京珞安科技有限责任公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人