一种基于图神经网络的敏感信息检测方法技术

技术编号:37846678 阅读:16 留言:0更新日期:2023-06-14 22:31
本发明专利技术公开了一种基于图神经网络的敏感信息检测方法,从网络和用户处收集文本数据构建图结构。以文本的词袋模型作为图的节点,计算文本的Jacard相似度作为节点之间边的权重。在训练阶段,由用户指定敏感信息,并对用户提供的敏感信息进行同态加密以保护用户隐私。通过用户指定的敏感信息和在网络上收集的信息构建图结构用于模型训练。在检测阶段,通过对信息共享平台和黑客网站进行扫描获得数据,对数据进行预处理。把收集到的数据作为节点添加到图结构中,获得新的图结构,并利用图神经网络进行检测。本发明专利技术通过图结构构建各个文档之间的关系,降低了人力成本。同时通过对用户数据进行同态加密的方法,保护了用户敏感数据的隐私性。隐私性。隐私性。

【技术实现步骤摘要】
一种基于图神经网络的敏感信息检测方法


[0001]本专利技术涉及的是信息安全领域,涉及敏感信息监测技术,具体涉及一种基于图神经网络的敏感信息检测方法。

技术介绍

[0002]企业敏感数据包含这用户的敏感信息,一旦泄露不仅会对企业带来巨大的经济损失,也会对用户造成麻烦。因此如何保障企业敏感数据的安全,成为企业信息保护工作的重点。传统方法使用人工对照,人力成本高,灵活性差,同时会泄露敏感信息给检测人员。随着深度学习的发展,有些学者使用词向量的方法进行敏感信息检测。但是这种基于内容的检测方法,忽略了文本之间的关系,容易导致模型的误报率较高。本专利技术通过图结构来构建文本之间的关系,同时对数据进行同态加密,在保护用户隐私的情况下进行计算。解决了以往方法中检测过程中泄露敏感信息和缺乏文本之间关系导致的误报率过高的问题。

技术实现思路

[0003]针对现有技术上存在的不足,本专利技术目的是在于提供一种基于图神经网络的敏感信息检测方法,通过图结构构建各个文档之间的关系,解决了传统方法漏报率和误报率过高的问题,降低了人力成本。同时通过对用户数据进行同态加密的方法,保护了用户敏感数据的隐私性。
[0004]为了实现上述目的,本专利技术是通过如下的技术方案来实现:一种基于图神经网络的敏感信息检测方法,包括以下步骤:
[0005]1、收集训练集,训练数据分为两部分。第一部分是通过爬虫和人工在代码共享平台收集的非敏感信息。对收集的信息使用BeautifulSoup库进行解析,并进行过滤只留下文本信息设置标签为(0,0,0,1)
T
。第二部分由用户提供的敏感信息,设置标签为(1,0,0,0)
T
,(0,1,0,0)
T
,(0,0,1,0)
T
,分别表示高、中、低敏感等级。
[0006]2、构建图结构,根据训练集构建图结构用于训练。图结构中,训练集中文本的词袋模型作为图结构中的节点,文本之间的Jacard相似度作为节点之间边的权重。具体公式为:
[0007][0008]其中,D
i
,D
j
表示两个文档分词后所得的词的集合,|D
i
|表示词集合D
i
中词的个数,|D
i
∩D
j
|表示词集合D
i
和D
j
之间交集的词个数,|D
i
∪D
j
|表示词集合D
i
和D
j
之间并集的词个数,|D
i

D
j
|表示词集合D
i
和D
j
之间差集的词个数,α是一个超参数用于调节由于文档长度不同而引入的惩罚大小。
[0009]3、训练图神经网络,使用训练集构建的图结构训练图神经网络。通过采样子图的方式进行图神经网络的训练,直到损失函数不在下降。
[0010]4、收集检测数据,通过爬虫和人工的方法收集信息共享平台中的数据,并记录收
集信息的来源和收集的时间。使用BeautifulSoup库进行解析后,只保留文本信息。使用检测数据和训练数据一起构建用于检测的图结构。
[0011]5、使用训练好的图神经网络对步骤4中所述图结构进行节点分类。
[0012]6、判断检测的数据中是否有敏感数据,如无敏感信息则不做任何处理,如发现有任何敏感等级的敏感信息则记录下该敏感信息的敏感等级。根据步骤4所述数据的来源和收集时间生成敏感信息记录。
[0013]具体记录结构如下:
[0014]敏感信息编号敏感信息等级敏感信息来源敏感信息收集时间
[0015]作为优选,为了保护用户敏感信息的隐私性,所述步骤1的敏感信息使用同态加密技术对信息进行加密。
[0016]作为优选,所述的步骤3的模型使用采样子图的方式进行训练。节点的更新发生在一个子图中,而不是整张图。该子图由节点所有邻居通过随机采样得到的邻居节点构成。
[0017]作为优选,所述步骤3的损失函数为CrossEntropy Loss。具体公式为:
[0018][0019]N是节点总数、y
i
表示节点i的真实标签、a
i
表示节点i的预测标签、σ是softmax激活函数。
[0020]本专利技术具有以下有益效果:
[0021]1、使用深度学习的方式来代替人工检测,大大的减少了人力成本。
[0022]2、使用图结构来表示整个文本集合,可以构建文本之间的关系,减少误警率,提高模型的检测效果。在构建测试图结构时,可以同时添加多个文档,大大的提高了检测效率。
[0023]3、使用同态加密,在用户可以指定敏感信息的同时保护用户数据的隐私性。
附图说明
[0024]下面结合附图和具体实施方式来详细说明本专利技术;
[0025]图1为本专利技术的流程图;
[0026]图2为本专利技术的图神经网络训练流程图;
[0027]图3为本专利技术的整体架构图。
具体实施方式
[0028]为使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本专利技术。
[0029]参照图1

3,本具体实施方式采用技术方案:一种基于图神经网络的敏感信息检测方法,其步骤包括:
[0030]步骤101:通过爬虫和人工收集的方式,收集代码托管平台、网盘、文库、黑客论坛和暗网中的信息,并记录收集信息的来源和收集的时间。
[0031]步骤102:爬取的数据往往是HTML格式,通过BeautifulSoup对数据进行解析,过滤获得文本信息。
[0032]步骤103:通过处理好的数据构建图结构,对数据进行同态加密,以文档的词袋模型作为图结构中的节点,通过计算文档之间的Jacard相似度来定义节点之间边的权重,具体公式如下:
[0033][0034]步骤104:把图输入进图神经网络中,通过图神经网络对输入的图节点分类,最终输出每个节点的预测标签。标签有(1,0,0,0)
T
,(0,1,0,0)
T
,(0,0,1,0)
T
,(0,0,0,1)
T
分别表示高敏感信息,中敏感信息,低敏感信息和非敏感信息。模型的输入为一张图,通过向训练过程中构建的图结构中添加节点和边构成用于测试的图结构,每次添加20个节点,故模型可以同时检测20个文档是否是包含敏感信息。
[0035]步骤105:判定输入的文档中是否有敏感信息,如无敏感信息则不做任何处理,如发现有任何敏感等级的敏感信息则记录下该敏感信息的敏感等级。
[0036]步骤106:根据步骤101获得敏感数据的来源和收集时间生成敏感信息记录,具体记录结构如下:
[0037]敏感信息编号敏感信息等级敏感信息来源敏感信息收集时间本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的敏感信息检测方法,其特征在于,包括以下步骤:(1)、收集训练集,训练数据分为两部分;第一部分是通过爬虫和人工在代码共享平台收集的非敏感信息;对收集的信息使用BeautifulSoup库进行解析,并进行过滤只留下文本信息设置标签为(0,0,0,1)
T
;第二部分由用户提供的敏感信息,设置标签为(1,0,0,0)
T
,(0,1,0,0)
T
,(0,0,1,0)
T
,分别表示高、中、低敏感等级;(2)、构建图结构,根据训练集构建图结构用于训练;图结构中,训练集中文本的词袋模型作为图结构中的节点,文本之间的Jacard相似度作为节点之间边的权重;(3)、训练图神经网络,使用训练集构建的图结构训练图神经网络;通过采样子图的方式进行图神经网络的训练,直到损失函数不在下降;(4)、收集检测数据,通过爬虫和人工的方法收集信息共享平台中的数据,并记录收集信息的来源和收集的时间;使用BeautifulSoup库进行解析后,只保留文本信息;使用检测数据和训练数据一起构建用于检测的图结构;(5)、使用训练好的图神经网络对步骤4中所述图结构进行节点分类;(6)、判断检测的数据中是否有敏感数据,如无敏感信息则不做任何处理,如发现有任何敏感等级的敏感信息则记录下该敏感信息的敏感等级;根据步骤(4)所述数据的来源和收集时间生成敏感信息记录。2.根据权利要求1所述的一种基于图神经网络的敏感信息检测方法,其特征在于,所述的步骤(2)的具体公式为:其中,D
i
,D<...

【专利技术属性】
技术研发人员:虞雁群刘彦伸吴艳郭银锋
申请(专利权)人:浙江御安信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1