【技术实现步骤摘要】
一种基于主题挖掘和要素发现的网络数据泄露检测方法
[0001]本专利技术涉及一种基于主题模型和要素发现的网络数据泄露检测方法,属于网络数据泄露检测与发现领域。
技术介绍
[0002]网络数据泄露是指有意或无意地将组织或个人的敏感信息发布到不受信任的网络环境中。近年来,随着信息技术的快速发展,数字化、网络化、智能化已经与社会生活的方方面面深度融合,数据成为一种重要的生产要素和资产,无论是政务机构、企事业单位还是个人,都积累的大量的数据。一旦这些数据泄露将严重影响国家安全、社会公共利益,以及公民、法人和其他组织的合法权益。如何及时发现、有效防范网络数据泄露成为网络信息安全领域的重要研究领域。
[0003]传统的数据泄露检测主要可以分为基于匹配的方法和基于统计的方法。基于匹配的方法通常采用关键词或短语匹配,以及基于正则表达式等预先定义的规则,此类方法相对较简单,难以对发生变形的数据进行检测。基于统计的方法选取数据的统计特征作为是否发生数据泄露的评判依据,常用的统计特征包括词语权重信息(如词频、相对词频、TF
‑
IDF值等)、词语关联信息(如词共现、互信息、依存度等),此类方法虽然从总体上对内容做了提取,但是对具体的文本内容考虑较少,因此在检测精确度上难以满足用户需要。
[0004]随着数据挖掘、自然语言处理等技术的不断发展,文本挖掘、机器学习等算法模型被广泛应用于网络数据泄露检测场景。文本挖掘类方法包括主题模型、图模型等,主题模型对文本进行主题挖掘,得到文本的主题分布,进而在语义层面判断是 ...
【技术保护点】
【技术特征摘要】
1.一种基于主题模型和要素发现的网络数据泄露检测方法,其特征在于,包括以下步骤:步骤一,对网络端口上的数据包进行捕获并对其数据进行还原,得到训练数据集;然后对训练数据集进行文本分词、去停用词、词性过滤预处理,得到训练数据集中文本的向量表示,作为主题挖掘模型和要素发现模型的输入;步骤二,构建主题挖掘模型,采用吉布斯采样算法对模型参数进行估计,得到“文本
‑
主题”分布、“主题
‑
词语”分布;步骤三,构建要素发现模型,根据“主题
‑
词语”分布计算得到词语主题分布相似度完成文本网络图构建,基于词语主题分布相似度、词语主题表达力和随机转移概率设计节点转移概率,最后在文本网络图上采用随机游走算法得到节点的主题重要性,完成主题要素发现;步骤四,网络数据泄露检测,对网络端口上的数据包进行捕获还原得到文本数据,经过预处理后输入主题挖掘模型得到该文本数据的主题,接着采用关键词匹配判断该文本数据是否包含该文本主题对应的要素;若有,则属于数据泄露,若没有,则不属于数据泄露。2.根据权利要求1所述的一种基于主题挖掘和要素发现的网络数据泄露检测方法,其特征在于:所述步骤一中,将数据集按词语单元进行切分,得到词语序列;接着将无实际意义的停用词过滤掉,减少其对主题挖掘的干扰;最后过滤掉文本中只起到修饰作用的词语。3.根据权利要求1所述的一种基于主题挖掘和要素发现的网络数据泄露检测方法,其特征在于,在所述步骤二中所述主题挖掘过程如下:(1)计算训练文本集词语和主题的联合生成概率:其中,和为Dirichlet分布归一化系数,是Dirichlet分布先验参数,m代表第m篇文本,k代表第k个主题,为“文本
‑
主题”分布概率,为“主题
‑
词语”分布概率,w为词语,z为主题;(2)联合生成概率的条件概率为其中,u=(m,n)是一个二维下标,对应第m篇文本第n个词语,表示除去下标为u的词语;其中,α
k
是中主题k对应超参数值,表示第m篇文本中除去第n个词语后,剩下词语属于主题k的次数;β
t
是中词语t对应的超参数值,表示主题为k的词语中除去第m篇文本第n个词语后,剩下词语是t的次数;(3)吉布斯采样估计“文本
‑
主题”分布概率“主题
‑
词语”分布概率其中吉布斯采样过程如下:
(3.1)对训练文本集中的每一篇文本的每个词语w,随机赋予一个主题z;(3.2)重新扫描训练文本集,对每个词语w,根据条件概率对其采样,生成一个新的主题;(3.3)重复步骤(3.2)直至吉布斯采样收敛为止;(3.4)统计训练文本集的“文本
‑
主题”分布“主题
‑
词语”分布4.根据权利要求1所述的一种基于主题挖掘和要素发现的网络数据泄露检测方法,其特征在于,在所述步骤三中,要素发现模型定义了文本网络图四元组G=<V,E,Ω,P>,对文本进行表示;V={v
i
|v
i
是文本包含的词语};文本中词语i表示为文本网络图中的节点v
i
;E={e
ij
...
【专利技术属性】
技术研发人员:蔡阳,邹希,陈真玄,陈岚,杨非,杨旭,
申请(专利权)人:水利部信息中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。