【技术实现步骤摘要】
一种基于基因演化的涉密敏感信息检测方法
[0001]本专利技术涉及人工智能
,具体涉及一种基于基因演化的涉密敏感信息检测方法。
技术介绍
[0002]随着互联网技术的飞速发展,越来越多的企事业单位、科研机构等都倾向于将信息资源以数字化和网络化的方式存储管理,这些信息资源在使用过程中的安全问题也日益严峻,如个人隐私曝光、信息泄密等事件层出不穷。根据Verizon的《2019年数据泄露调查报告》,34%的信息泄露与内部人员有关;而纳入统计的2013起数据泄露事件中,45%的数据外泄是以office doc文档的形式。综合各行业企业发生的数据泄露案例来看导致数据泄露的主要原因包括:外部黑客恶意入侵和窃取;内部用户有意或无意带出;企业或机构自身存在安全规范、管理制度等方面的疏漏。目前,文本文档作为数据资产的重要组成部分和信息的主流载体,对其是否涉密进行有效的检测是防敏感信息泄露工作得以开展的必要前提。
[0003]现有的敏感信息检测技术通常采用关键词匹配、机器学习、深度学习等方法。关键词匹配方法通过人工筛选出敏感信息的关键词形成词表,基于多模匹配算法将待测文本与词表进行对比,根据事先设定的阈值来判断文本内是否含有敏感信息。机器学习基于统计学模型,通过一系列词法、句法特征对词进行表征,通常通过计算词的表征语义相似度来检测敏感信息。深度学习通过对大量训练数据进行神经网络模型训练,自动挖掘敏感词的语义,从而检测敏感信息。上述方法大多都是基于已有的敏感词库,采用简单的基于敏感字字符串精确匹配算法,或者根据敏感词的词频和 ...
【技术保护点】
【技术特征摘要】
1.一种基于基因演化的涉密敏感信息检测方法,其特征在于,包括以下步骤:步骤1:对文本数据进行预处理,然后进行涉密敏感词标注得到结构化的文本;步骤2:将步骤1得到的文本输入ERNIE
‑
BiLSTM
‑
CRF模型进行训练得到涉密敏感信息检测模型;ERNIE
‑
BiLSTM
‑
CRF模型包括ERNIE模块和BiLSTM
‑
CRF模块;ERNIE模块用于将文本数据转换为动态词向量;BiLSTM
‑
CRF模块用于对动态词向量进行分类,判断是否为涉密敏感词;步骤3:采用人工免疫算法对涉密敏感词向量进行基因演化,得到面向涉密敏感信息的检测器;步骤4:将步骤1得到的文本输入步骤2得到的涉密敏感信息检测模型,若文本含有已知涉密敏感信息则通过涉密敏感信息检测模型进行检测;若含有涉密敏感信息检测模型无法识别的文本,则采用步骤3得到的检测器进行检测。2.根据权利要求1所述的一种基于基因演化的涉密敏感信息检测方法,其特征在于,所述步骤2中的ERNIE模块处理过程如下:S11:对输入文本进行分词,为每个词语添加位置编码;S12:对文本进行掩码;S13:将S12得到的文本输入双向Transformer编码器,得到每个词语对应的隐藏状态向量,输出。3.根据权利要求1所述的一种基于基因演化的涉密敏感信息检测方法,其特征在于,所述BiLSTM
‑
CRF模块处理过程如下:S21:将词向量输入双向长短期记忆网络BiLSTM,从前向和后向两个方向学习序列中每个元素的特征,输出每个元素对应的标签概率分布;S22:将BiLSTM网络输出作为条件随机场CRF的输入,计算序列标注问题的条件概率;S23:通过维特比算法在CRF网络中寻找最优路径,得到每个词语对应的涉密敏感信息类别。4.根据权利要求1所述的一种基于基因演化的涉密敏感信息检测方法,其特征在于,所述步骤3中面向涉密敏感信息的检测器构建过程如下:S31:初始化种群,即随机生成一定数量的检测器,将其存储在记忆库中;S32:根据适应度评估每个基因序列,对检测器进行排序,根据设定阈值选择检测器作为优秀基因序列;S33:对步骤S32中选中的检测器,计算其适应度并进行克隆;S34:对步骤S33中克隆得到的检测器,按照适应度进行变异;S35:将克隆个体和变异个体与当前种群合并,根据适应度函数重新评估,比较新生成的个体与当前种群的适应度,选择适应度超过一定阈值的个体作为下一代种群;S36:判断是否达到终止条件,若满足迭代要求则当前检测器集合为最终结果,若否则返回步骤S33。5.根据权利要求1所述的一种基于基因演化的涉密敏感信息检测方法,其特征在于,所述步骤4中检测器中检测文本过程如下:S4...
【专利技术属性】
技术研发人员:何俊江,杨尽能,兰小龙,张科,李鸥,顾俊杰,
申请(专利权)人:中国核动力研究设计院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。