一种基于主题挖掘和要素发现的网络数据泄露检测方法技术

技术编号:34941200 阅读:33 留言:0更新日期:2022-09-17 12:14
一种基于主题模型和要素发现的网络数据泄露检测方法,其属于网络数据泄露检测与发现的技术领域。该方法包括文本预处理、文本主题挖掘、主题要素发现、数据泄露检测等步骤。文本预处理用于对文本进行分词、去停用词、词性过滤等处理,得到文本词语向量表示。文本主题挖掘构建主题模型,通过训练得到“文本

【技术实现步骤摘要】
一种基于主题挖掘和要素发现的网络数据泄露检测方法


[0001]本专利技术涉及一种基于主题模型和要素发现的网络数据泄露检测方法,属于网络数据泄露检测与发现领域。

技术介绍

[0002]网络数据泄露是指有意或无意地将组织或个人的敏感信息发布到不受信任的网络环境中。近年来,随着信息技术的快速发展,数字化、网络化、智能化已经与社会生活的方方面面深度融合,数据成为一种重要的生产要素和资产,无论是政务机构、企事业单位还是个人,都积累的大量的数据。一旦这些数据泄露将严重影响国家安全、社会公共利益,以及公民、法人和其他组织的合法权益。如何及时发现、有效防范网络数据泄露成为网络信息安全领域的重要研究领域。
[0003]传统的数据泄露检测主要可以分为基于匹配的方法和基于统计的方法。基于匹配的方法通常采用关键词或短语匹配,以及基于正则表达式等预先定义的规则,此类方法相对较简单,难以对发生变形的数据进行检测。基于统计的方法选取数据的统计特征作为是否发生数据泄露的评判依据,常用的统计特征包括词语权重信息(如词频、相对词频、TF

IDF值等)、词语关联信息(如词共现、互信息、依存度等),此类方法虽然从总体上对内容做了提取,但是对具体的文本内容考虑较少,因此在检测精确度上难以满足用户需要。
[0004]随着数据挖掘、自然语言处理等技术的不断发展,文本挖掘、机器学习等算法模型被广泛应用于网络数据泄露检测场景。文本挖掘类方法包括主题模型、图模型等,主题模型对文本进行主题挖掘,得到文本的主题分布,进而在语义层面判断是否属于数据泄露范畴。图模型将文本表示为网络图,通过对文本结构进行建模提高文本关键内容发现能力。机器学习类方法包括隐马尔可夫模型(HMM)、深度学习模型等,其采用大量文本进行机器学习算法训练,算法根据上下文和自然语义等提炼出文本的特征形成判别模型。但是,机器学习类方法需要依赖大量高质量的标注训练集且模型较为复杂,在文本发生变形的情况下检测精度会急剧下降。
[0005]综上,现有数据泄露检测方法主要是基于预定义的检测规则、基于文本统计特征、基于关键词发现等,然而网络数据在不同场景下存在不同的表达形式,因此现有的方法在检测的准确度、对检测内容变化的容忍度等方面有待进一步提高。

技术实现思路

[0006]本专利技术的目的在于提出一种基于主题挖掘和要素发现的网络数据泄露检测方法,该方法通过对网络数据的主题挖掘以及与主题相关的关键词提取,进而判断该数据是否属于敏感数据泄露,以提高网络数据泄露检测的准确度。
[0007]为实现上述目的,本专利技术采用以下技术方案:
[0008]一种基于主题挖掘和要素发现的网络数据泄露检测方法,包括如下步骤:
[0009]步骤一,对网络端口上的各种数据包进行捕获并对其数据进行还原,得到训练数
据集。然后对训练数据集进行文本分词、去停用词、词性过滤等预处理,得到训练数据集中文本的向量表示,作为主题挖掘模型和要素发现模型的输入。
[0010]步骤二,构建主题挖掘模型,采用吉布斯采样算法对模型参数进行估计,得到“文本

主题”分布、“主题

词语”分布。
[0011]步骤三,构建要素发现模型,根据“主题

词语”分布计算得到词语主题分布相似度完成文本网络图构建,基于词语主题分布相似度、词语主题表达力和随机转移概率设计节点转移概率,最后在文本网络图上采用随机游走算法得到节点的主题重要性,完成主题要素发现。
[0012]步骤四,网络数据泄露检测,对网络端口上的数据包进行捕获还原得到文本数据,经过预处理后输入主题挖掘模型得到该文本数据的主题,接着采用关键词匹配判断该文本数据是否包含该文本主题对应的要素,若有,则属于数据泄露,若没有,则不属于数据泄露。
[0013]上述的一种基于主题挖掘和要素发现的网络数据泄露检测方法,在所述步骤一中,所述文本分词是指将文本按词语单元进行切分,得到词语序列,方便后续文本的表示与处理,可以采用jieba分词、HanLP等专业分词工具。所述去停用词是指文本中将无实际意义的“的”、“地”、“了”等停用词过滤掉,减少其对主题挖掘的干扰,通常采用停用词表,在停用词表中的词语将被过滤掉。所述词性过滤是指过滤掉文本中只起到修饰作用的形容词、副词、数量词等词语,使得文本的表达更加简练,通常使用jieba分词等实现词性标注,将词性为形容词、数词和量词等词性的词语过滤掉。
[0014]上述的一种基于主题挖掘和要素发现的网络数据泄露检测方法,在所述步骤二中,构建的主题模型将文本生成过程建模为以下过程:
[0015](1)从“文本

主题”分布的先验Dirichlet分布中抽取该“文本

主题”分布概率
[0016](2)生成文本中每个词语的主题z
m,n

[0017](3)从“主题

词语”分布的先验Dirichlet分布中抽取该“主题

词语”分布概率
[0018](4)生成文本中每个词语w
m,n

[0019]因此,训练文本集词语和主题的联合生成概率为:
[0020][0021]其中,和称为Dirichlet分布归一化系数。
[0022]联合生成概率的条件概率为其中,u=(m,n)是一个二维下标,对应第m篇文本第n个词语,表示除去下标为u的词语。
[0023][0024]上述的吉布斯采样过程为:
[0025](1)对训练文本集中的每一篇文本的每个词语w,随机赋予一个主题z;
[0026](2)重新扫描训练文本集,对每个词语w,根据条件概率对其采样,生成一个新的主题;
[0027](3)重复步骤(2)直至吉布斯采样收敛为止;
[0028](4)统计训练文本集的“文本

主题”分布“主题

词语”分布
[0029]在所述步骤三中,构建的要素发现模型在构建文本网络图时,将属于同一主题的所有文本中的词语定义为节点,将词语之间的主题分布相似度定义为边,之后采用网络图上的随机游走算法对节点重要性进行打分。在进行随机游走时,节点之间的转移概率除了考虑节点的主题分布相似度,也额外定义了随机转移概率和节点主题表达力,从而实现面向主题的随机游走,使得与主题最相关的词语能够获得最高的得分。
[0030]上述文本网络图定义为四元组G=<V,E,Ω,P>:
[0031]V={v
i
|v
i
是文本包含的词语}。文本中词语i表示为文本网络图中的节点v
i

[0032]E={e
ij
|e
ij
是节点v
i
与节点v
j
之间的边,v
i
∈V,v
j
∈V}。节本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于主题模型和要素发现的网络数据泄露检测方法,其特征在于,包括以下步骤:步骤一,对网络端口上的数据包进行捕获并对其数据进行还原,得到训练数据集;然后对训练数据集进行文本分词、去停用词、词性过滤预处理,得到训练数据集中文本的向量表示,作为主题挖掘模型和要素发现模型的输入;步骤二,构建主题挖掘模型,采用吉布斯采样算法对模型参数进行估计,得到“文本

主题”分布、“主题

词语”分布;步骤三,构建要素发现模型,根据“主题

词语”分布计算得到词语主题分布相似度完成文本网络图构建,基于词语主题分布相似度、词语主题表达力和随机转移概率设计节点转移概率,最后在文本网络图上采用随机游走算法得到节点的主题重要性,完成主题要素发现;步骤四,网络数据泄露检测,对网络端口上的数据包进行捕获还原得到文本数据,经过预处理后输入主题挖掘模型得到该文本数据的主题,接着采用关键词匹配判断该文本数据是否包含该文本主题对应的要素;若有,则属于数据泄露,若没有,则不属于数据泄露。2.根据权利要求1所述的一种基于主题挖掘和要素发现的网络数据泄露检测方法,其特征在于:所述步骤一中,将数据集按词语单元进行切分,得到词语序列;接着将无实际意义的停用词过滤掉,减少其对主题挖掘的干扰;最后过滤掉文本中只起到修饰作用的词语。3.根据权利要求1所述的一种基于主题挖掘和要素发现的网络数据泄露检测方法,其特征在于,在所述步骤二中所述主题挖掘过程如下:(1)计算训练文本集词语和主题的联合生成概率:其中,和为Dirichlet分布归一化系数,是Dirichlet分布先验参数,m代表第m篇文本,k代表第k个主题,为“文本

主题”分布概率,为“主题

词语”分布概率,w为词语,z为主题;(2)联合生成概率的条件概率为其中,u=(m,n)是一个二维下标,对应第m篇文本第n个词语,表示除去下标为u的词语;其中,α
k
是中主题k对应超参数值,表示第m篇文本中除去第n个词语后,剩下词语属于主题k的次数;β
t
是中词语t对应的超参数值,表示主题为k的词语中除去第m篇文本第n个词语后,剩下词语是t的次数;(3)吉布斯采样估计“文本

主题”分布概率“主题

词语”分布概率其中吉布斯采样过程如下:
(3.1)对训练文本集中的每一篇文本的每个词语w,随机赋予一个主题z;(3.2)重新扫描训练文本集,对每个词语w,根据条件概率对其采样,生成一个新的主题;(3.3)重复步骤(3.2)直至吉布斯采样收敛为止;(3.4)统计训练文本集的“文本

主题”分布“主题

词语”分布4.根据权利要求1所述的一种基于主题挖掘和要素发现的网络数据泄露检测方法,其特征在于,在所述步骤三中,要素发现模型定义了文本网络图四元组G=<V,E,Ω,P>,对文本进行表示;V={v
i
|v
i
是文本包含的词语};文本中词语i表示为文本网络图中的节点v
i
;E={e
ij
...

【专利技术属性】
技术研发人员:蔡阳邹希陈真玄陈岚杨非杨旭
申请(专利权)人:水利部信息中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1