一种基于基因演化的涉密敏感信息检测方法技术

技术编号:39295566 阅读:13 留言:0更新日期:2023-11-07 11:03
本发明专利技术公开了一种基于基因演化的涉密敏感信息检测方法,包括以下步骤:步骤1:对文本数据进行预处理,然后进行涉密敏感词标注得到结构化的文本;步骤2:将步骤1得到的文本输入ERNIE

【技术实现步骤摘要】
一种基于基因演化的涉密敏感信息检测方法


[0001]本专利技术涉及人工智能
,具体涉及一种基于基因演化的涉密敏感信息检测方法。

技术介绍

[0002]随着互联网技术的飞速发展,越来越多的企事业单位、科研机构等都倾向于将信息资源以数字化和网络化的方式存储管理,这些信息资源在使用过程中的安全问题也日益严峻,如个人隐私曝光、信息泄密等事件层出不穷。根据Verizon的《2019年数据泄露调查报告》,34%的信息泄露与内部人员有关;而纳入统计的2013起数据泄露事件中,45%的数据外泄是以office doc文档的形式。综合各行业企业发生的数据泄露案例来看导致数据泄露的主要原因包括:外部黑客恶意入侵和窃取;内部用户有意或无意带出;企业或机构自身存在安全规范、管理制度等方面的疏漏。目前,文本文档作为数据资产的重要组成部分和信息的主流载体,对其是否涉密进行有效的检测是防敏感信息泄露工作得以开展的必要前提。
[0003]现有的敏感信息检测技术通常采用关键词匹配、机器学习、深度学习等方法。关键词匹配方法通过人工筛选出敏感信息的关键词形成词表,基于多模匹配算法将待测文本与词表进行对比,根据事先设定的阈值来判断文本内是否含有敏感信息。机器学习基于统计学模型,通过一系列词法、句法特征对词进行表征,通常通过计算词的表征语义相似度来检测敏感信息。深度学习通过对大量训练数据进行神经网络模型训练,自动挖掘敏感词的语义,从而检测敏感信息。上述方法大多都是基于已有的敏感词库,采用简单的基于敏感字字符串精确匹配算法,或者根据敏感词的词频和敏感级别信息或者计算敏感文本之间的相似度来进行敏感性判断,不能很好地捕获敏感词的内在语义特征,同时检测效果受限于词库规模,难以对词库以外的信息进行检测,对于在密点清单不完备情况下的涉密敏感信息检测,往往也无能为力。

技术实现思路

[0004]本专利技术针对现有技术存在的问题提供一种基于基因演化的涉密敏感信息检测方法。
[0005]本专利技术采用的技术方案是:
[0006]一种基于基因演化的涉密敏感信息检测方法,包括以下步骤:
[0007]步骤1:对文本数据进行预处理,然后进行涉密敏感词标注得到结构化的文本;
[0008]步骤2:将步骤1得到的文本输入ERNIE

BiLSTM

CRF模型进行训练得到涉密敏感信息检测模型;
[0009]ERNIE

BiLSTM

CRF模型包括ERNIE模块和BiLSTM

CRF模块;
[0010]ERNIE模块用于将文本数据转换为动态词向量;
[0011]BiLSTM

CRF模块用于对动态词向量进行分类,判断是否为涉密敏感词;
[0012]步骤3:采用人工免疫算法对涉密敏感词向量进行基因演化,得到面向涉密敏感信
息的检测器;
[0013]步骤4:将步骤1得到的文本输入步骤2得到的涉密敏感信息检测模型,若文本含有已知涉密敏感信息则通过涉密敏感信息检测模型进行检测;若含有涉密敏感信息检测模型无法识别的文本,则采用步骤3得到的检测器进行检测。
[0014]进一步的,所述步骤2中的ERNIE模块处理过程如下:
[0015]S11:对输入文本进行分词,为每个词语添加位置编码;
[0016]S12:对文本进行掩码;
[0017]S13:将S12得到的文本输入双向Transformer编码器,得到每个词语对应的隐藏状态向量,输出。
[0018]进一步的,所述BiLSTM

CRF模块处理过程如下:
[0019]S21:将词向量输入双向长短期记忆网络BiLSTM,从前向和后向两个方向学习序列中每个元素的特征,输出每个元素对应的标签概率分布;
[0020]S22:将BiLSTM网络输出作为条件随机场CRF的输入,计算序列标注问题的条件概率;
[0021]S23:通过维特比算法在CRF网络中寻找最优路径,得到每个词语对应的涉密敏感信息类别。
[0022]进一步的,所述步骤3中面向涉密敏感信息的检测器构建过程如下:
[0023]S31:初始化种群,即随机生成一定数量的检测器,将其存储在记忆库中;
[0024]S32:根据适应度评估每个基因序列,对检测器进行排序,根据设定阈值选择检测器作为优秀基因序列;
[0025]S33:对步骤S32中选中的检测器,计算其适应度并进行克隆;
[0026]S34:对步骤S33中克隆得到的检测器,按照适应度进行变异;
[0027]S35:将克隆个体和变异个体与当前种群合并,根据适应度函数重新评估,比较新生成的个体与当前种群的适应度,选择适应度超过一定阈值的个体作为下一代种群;
[0028]S36:判断是否达到终止条件,若满足迭代要求则当前检测器集合为最终结果,若否则返回步骤S33。
[0029]进一步的,检测器中检测文本过程如下:
[0030]S41:对步骤3得到的检测器进行耐受,得到成熟检测器;
[0031]S42:文本输入成熟检测器,若判定为未知敏感信息,激活成熟检测器动态演化,得到记忆检测器;
[0032]S43:步骤S42被判定为未知敏感信息的文本采用记忆检测器进行检测。
[0033]进一步的,所述步骤S35中适应度函数如下:
[0034][0035]式中:x为检测器,y为原涉密敏感信息文本,d(x,y)为x和y之间的涉密关键词匹配度,s(x,y)为x和y之间的余弦相似度,α、β、γ均为参数。
[0036]进一步的,所述克隆方法如下:
[0037][0038]式中:CloneNum为克隆个体数量,Fit(t)为第i个基因序列的适应度值,maxFit为种群中适应度的最大值,PopulationSize为种群大小。
[0039]进一步的,所述步骤S34中按照适应度变异即对词向量中的某些元素进行随机改变,变异概率如下:
[0040][0041]式中:MutationProb为变异概率,P
max
为最大变异概率。
[0042]进一步的,步骤S42中判定未知敏感信息的过程如下:
[0043][0044][0045]式中:Dist为待检测信息与检测器的距离,r为检测半径,x
i
为检测器,y
i
为待检测信息,i为序号,n为检测器的数量;
[0046]成熟检测器动态演化过程如下:
[0047][0048]式中:T
new
(t)为分发到检测中心新的成熟检测器,T
clone
(t)为时刻t进化为记忆检测器的成熟检测器,T
dead
(t)为t时刻老死的检测器;Φ为初始成熟检测器集合,T
b
(t)为t时刻成熟检测器集合;
[0049]记忆本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于基因演化的涉密敏感信息检测方法,其特征在于,包括以下步骤:步骤1:对文本数据进行预处理,然后进行涉密敏感词标注得到结构化的文本;步骤2:将步骤1得到的文本输入ERNIE

BiLSTM

CRF模型进行训练得到涉密敏感信息检测模型;ERNIE

BiLSTM

CRF模型包括ERNIE模块和BiLSTM

CRF模块;ERNIE模块用于将文本数据转换为动态词向量;BiLSTM

CRF模块用于对动态词向量进行分类,判断是否为涉密敏感词;步骤3:采用人工免疫算法对涉密敏感词向量进行基因演化,得到面向涉密敏感信息的检测器;步骤4:将步骤1得到的文本输入步骤2得到的涉密敏感信息检测模型,若文本含有已知涉密敏感信息则通过涉密敏感信息检测模型进行检测;若含有涉密敏感信息检测模型无法识别的文本,则采用步骤3得到的检测器进行检测。2.根据权利要求1所述的一种基于基因演化的涉密敏感信息检测方法,其特征在于,所述步骤2中的ERNIE模块处理过程如下:S11:对输入文本进行分词,为每个词语添加位置编码;S12:对文本进行掩码;S13:将S12得到的文本输入双向Transformer编码器,得到每个词语对应的隐藏状态向量,输出。3.根据权利要求1所述的一种基于基因演化的涉密敏感信息检测方法,其特征在于,所述BiLSTM

CRF模块处理过程如下:S21:将词向量输入双向长短期记忆网络BiLSTM,从前向和后向两个方向学习序列中每个元素的特征,输出每个元素对应的标签概率分布;S22:将BiLSTM网络输出作为条件随机场CRF的输入,计算序列标注问题的条件概率;S23:通过维特比算法在CRF网络中寻找最优路径,得到每个词语对应的涉密敏感信息类别。4.根据权利要求1所述的一种基于基因演化的涉密敏感信息检测方法,其特征在于,所述步骤3中面向涉密敏感信息的检测器构建过程如下:S31:初始化种群,即随机生成一定数量的检测器,将其存储在记忆库中;S32:根据适应度评估每个基因序列,对检测器进行排序,根据设定阈值选择检测器作为优秀基因序列;S33:对步骤S32中选中的检测器,计算其适应度并进行克隆;S34:对步骤S33中克隆得到的检测器,按照适应度进行变异;S35:将克隆个体和变异个体与当前种群合并,根据适应度函数重新评估,比较新生成的个体与当前种群的适应度,选择适应度超过一定阈值的个体作为下一代种群;S36:判断是否达到终止条件,若满足迭代要求则当前检测器集合为最终结果,若否则返回步骤S33。5.根据权利要求1所述的一种基于基因演化的涉密敏感信息检测方法,其特征在于,所述步骤4中检测器中检测文本过程如下:S4...

【专利技术属性】
技术研发人员:何俊江杨尽能兰小龙张科李鸥顾俊杰
申请(专利权)人:中国核动力研究设计院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1