一种基于图神经网络的敏感信息检测方法技术

技术编号：37846678 阅读：16 留言：0更新日期：2023-06-14 22:31

本发明专利技术公开了一种基于图神经网络的敏感信息检测方法，从网络和用户处收集文本数据构建图结构。以文本的词袋模型作为图的节点，计算文本的Jacard相似度作为节点之间边的权重。在训练阶段，由用户指定敏感信息，并对用户提供的敏感信息进行同态加密以保护用户隐私。通过用户指定的敏感信息和在网络上收集的信息构建图结构用于模型训练。在检测阶段，通过对信息共享平台和黑客网站进行扫描获得数据，对数据进行预处理。把收集到的数据作为节点添加到图结构中，获得新的图结构，并利用图神经网络进行检测。本发明专利技术通过图结构构建各个文档之间的关系，降低了人力成本。同时通过对用户数据进行同态加密的方法，保护了用户敏感数据的隐私性。隐私性。隐私性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于图神经网络的敏感信息检测方法

[0001]本专利技术涉及的是信息安全领域，涉及敏感信息监测技术，具体涉及一种基于图神经网络的敏感信息检测方法。

技术介绍

[0002]企业敏感数据包含这用户的敏感信息，一旦泄露不仅会对企业带来巨大的经济损失，也会对用户造成麻烦。因此如何保障企业敏感数据的安全，成为企业信息保护工作的重点。传统方法使用人工对照，人力成本高，灵活性差，同时会泄露敏感信息给检测人员。随着深度学习的发展，有些学者使用词向量的方法进行敏感信息检测。但是这种基于内容的检测方法，忽略了文本之间的关系，容易导致模型的误报率较高。本专利技术通过图结构来构建文本之间的关系，同时对数据进行同态加密，在保护用户隐私的情况下进行计算。解决了以往方法中检测过程中泄露敏感信息和缺乏文本之间关系导致的误报率过高的问题。

技术实现思路

[0003]针对现有技术上存在的不足，本专利技术目的是在于提供一种基于图神经网络的敏感信息检测方法，通过图结构构建各个文档之间的关系，解决了传统方法漏报率和误报率过高的问题，降低了人力成本。同时通过对用户数据进行同态加密的方法，保护了用户敏感数据的隐私性。
[0004]为了实现上述目的，本专利技术是通过如下的技术方案来实现：一种基于图神经网络的敏感信息检测方法，包括以下步骤：
[0005]1、收集训练集，训练数据分为两部分。第一部分是通过爬虫和人工在代码共享平台收集的非敏感信息。对收集的信息使用BeautifulSoup库进行解析，并进行过滤只留下文本信息设置标签为...

【技术保护点】

【技术特征摘要】
1.一种基于图神经网络的敏感信息检测方法，其特征在于，包括以下步骤：(1)、收集训练集，训练数据分为两部分；第一部分是通过爬虫和人工在代码共享平台收集的非敏感信息；对收集的信息使用BeautifulSoup库进行解析，并进行过滤只留下文本信息设置标签为(0，0，0，1)
T
；第二部分由用户提供的敏感信息，设置标签为(1，0，0，0)
T
，(0，1，0，0)
T
，(0，0，1，0)
T
，分别表示高、中、低敏感等级；(2)、构建图结构，根据训练集构建图结构用于训练；图结构中，训练集中文本的词袋模型作为图结构中的节点，文本之间的Jacard相似度作为节点之间边的权重；(3)、训练图神经网络，使用训练集构建的图结构训练图神经网络；通过采样子图的方式进行图神经网络的训练，直到损失函数不在下降；(4)、收集检测数据，通过爬虫和人工的方法收集信息共享平台中的数据，并记录收集信息的来源和收集的时间；使用BeautifulSoup库进行解析后，只保留文本信息；使用检测数据和训练数据一起构建用于检测的图结构；(5)、使用训练好的图神经网络对步骤4中所述图结构进行节点分类；(6)、判断检测的数据中是否有敏感数据，如无敏感信息则不做任何处理，如发现有任何敏感等级的敏感信息则记录下该敏感信息的敏感等级；根据步骤(4)所述数据的来源和收集时间生成敏感信息记录。2.根据权利要求1所述的一种基于图神经网络的敏感信息检测方法，其特征在于，所述的步骤(2)的具体公式为：其中，D
i
，D<...

【专利技术属性】
技术研发人员：虞雁群，刘彦伸，吴艳，郭银锋，
申请(专利权)人：浙江御安信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人