一种项目数据安全信息分级处理方法技术

技术编号:39789977 阅读:5 留言:0更新日期:2023-12-22 02:27
本发明专利技术公开了一种项目数据安全信息分级处理方法,涉及数据安全信息分级技术领域,利用数据合规库提取数据安全判定规则,形成数据安全词库;使用自然语言处理技术,基于数据安全词库和语义情境分析,建立自动分级判断模型;利用模型对数据库数据进行格式和语义识别,并基于识别结果,判断数据内容的安全性

【技术实现步骤摘要】
一种项目数据安全信息分级处理方法


[0001]本专利技术涉及数据安全信息分级
,特别是一种项目数据安全信息分级处理方法


技术介绍

[0002]早期主要依靠人工进行数据安全分级,效率低下;
2000
年代开始引入规则引擎等半自动化技术;
2010
年代随着机器学习和
NLP
的发展,开始应用自然语言处理

深度学习等技术实现智能化安全分级;当前基于
NLP
和知识图谱的语义分析技术已较成熟,可以有效抽取文本语义特征;基于机器学习和深度学习的安全关联判断模型也日臻完善

[0003]现有基于知识图谱的方法,安全关联推理主要局限在单跳范围,无法进行多跳复杂推理,对隐含关联的探测能力较弱;且当前方法由于依赖数据驱动,缺乏对安全分类决策过程的清晰解释,一定程度上降低了用户的信任感


技术实现思路

[0004]鉴于上述数据安全分级中存在的问题,提出了本专利技术

[0005]因此,本专利技术所要解决的问题在于如何提供一种提高数据安全分级的智能化水平,减少人工工作量,提升数据处理效率的方法

[0006]为解决上述技术问题,本专利技术提供如下技术方案:
[0007]第一方面,本专利技术实施例提供了一种项目数据安全信息分级处理方法,包括利用数据合规库提取数据安全判定规则,构成数据安全词库;使用自然语言处理技术,基于数据安全词库和语义情境分析,建立自动分级判断模型;对数据库数据进行格式和语义识别,并基于识别结果匹配安全词根,判断安全关联程度;计算数据实体与安全词库的相关程度,自动识别敏感程度,并基于数据实体的安全特征对数据实体划分安全等级

[0008]作为本专利技术所述项目数据安全信息分级处理方法的一种优选方案,其中:所述数据安全词库的构成过程包括以下步骤:采集相关行业数据合规库,使用文本分析合规库,提取合规规定中的数据安全和风险控制关键词;对关键词进行处理,提取词根,合并同义词,构建数据安全词库;词库中包含数据安全判断的关键词汇总;构建安全词向量空间,计算词汇安全关联度,过滤低关联词汇

[0009]作为本专利技术所述项目数据安全信息分级处理方法的一种优选方案,其中:所述构建安全词向量空间包括使用
Word2Vec
技术,训练词向量模型,将每个词映射为一个高维向量;采集安全领域词汇表,包含不同安全分类标签;对每个安全类别词汇,在词向量空间中取均值,得到该类别的词向量代表;对新词汇,计算向量与各类别代表向量的余弦相似度,公式如下:
[0010][0011]其中,
A
为词汇的词向量,
A∈R
n


n
维向量;
B
为安全类别
i
的代表词向量,
B∈R
n


n
维向量;
A
·
B

A

B
的点积;
||A||
为词向量
A

L2范数;
||B||
为向量
B

L2范数;
A

B
间角度的余弦值,取值范围
[

1,1],余弦值越大,表示两向量方向越接近,相似度越高;设定相似度阈值,大于相似度阈值则认为该词汇与对应的安全类别高度相关;对于相关度低于相似度阈值的词汇,进行人工审核判断其安全关联性;反馈人工判断结果,调整相关类别的代表向量;循环上述计算

校验和调整过程,至安全关联计算准确

[0012]作为本专利技术所述项目数据安全信息分级处理方法的一种优选方案,其中:所述相似度阈值的设置过程为:采集验证词汇样本,且这些词汇的安全类别已知;对每个验证词汇,计算与各类别代表向量的余弦相似度;将余弦相似度排序,取前
K
个最相似类别;比较前
K
个类别与词汇实际类别的匹配情况;调整相似度阈值,目标为最大化前
K
个匹配的准确率;构建验证样本的
ROC
曲线,横轴为假正率,即
FPR
,纵轴为真正率,即
TPR
,将曲线中
TPR
高于平均值的点划为预备点集1,将曲线中
FPR
低于平均值的点划分为预备点集2;取同一垂直线上预备点集1和2中的差值最大的值所在的点设为阈值点

[0013]作为本专利技术所述项目数据安全信息分级处理方法的一种优选方案,其中:所述判断安全关联程度的步骤如下:构建安全关联知识图谱;对语句实体,在图谱中进行搜索,并返回所有匹配的实体节点;对多义实体,利用上下文过滤掉不相关义项;标记语句中匹配到的实体节点;从标记节点开始,深度优先搜索图谱;遍历节点边缘,推理出多跳关联路径,并设置最大跳数,避免无限遍历循环;返回连接语句实体的所有多跳关联路径;计算路径中关系的可信权重,并累加路径中的关系权重,并输出每个关联路径的可信度;训练神经网络对路径可信度进行判断,设路径
i
的可信度为
r
i

路径长度为
l
i
,则输入为
[r
i
,l
i
],使用带标签的路径数据训练网络,标签表示路径的安全关联程度
y∈[0,1],优化损失函数为:
[0014][0015]其中,为预测输出;使预测输出逼近实际标签
y
,对新路径,输入其
[r
i
,l
i
]到网络,获得预测的安全关联概率汇总所有路径的获得语句的安全关联程度

[0016]作为本专利技术所述项目数据安全信息分级处理方法的一种优选方案,其中:所述计算数据实体与安全词库的相关程度的过程为:综合数据格式

语义特征与安全词根的匹配程度

根据综合判断结果,匹配预定义的安全等级;所述综合数据格式

语义特征与安全词根的匹配程度的过程如下:对数据格式进行检查:若为结构化数据,则提取字段名称进行判断,若非结构化数据,则进行文本分词提取关键词;对提取的字段名称或关键词进行语义分析,判断它们是否符合名称构成规范;计算它们与预定义安全词根的语义相似度,根据语义相似度,确定字段名称或关键词的安全等级;对字段内容进行样本抽取,进行进一步判断:使用
NLP
技术对样本内容进行关键词提取;对提取出的关键词计算其在样本文本中的词频
TF
;对样本内容进行语义分析,判断是否包含敏感信息,若不包含,则维持原安全等级;若少量敏感关键词的阈值

包含的敏感信息
&本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种项目数据安全信息分级处理方法,其特征在于:包括:利用数据合规库提取数据安全判定规则,构成数据安全词库;使用自然语言处理技术,基于数据安全词库和语义情境分析,建立自动分级判断模型;对数据库数据进行格式和语义识别,并基于识别结果匹配安全词根,判断安全关联程度;计算数据实体与安全词库的相关程度,自动识别敏感程度,并基于数据实体的安全特征对数据实体划分安全等级
。2.
如权利要求1所述的项目数据安全信息分级处理方法,其特征在于:所述数据安全词库的构成过程包括以下步骤:采集相关行业数据合规库,使用文本分析合规库,提取合规规定中的数据安全和风险控制关键词;对关键词进行处理,提取词根,合并同义词,构建数据安全词库;词库中包含数据安全判断的关键词汇总;构建安全词向量空间,计算词汇安全关联度,过滤低关联词汇
。3.
如权利要求2所述的项目数据安全信息分级处理方法,其特征在于:所述构建安全词向量空间包括:使用
Word2Vec
技术,训练词向量模型,将每个词映射为一个高维向量;采集安全领域词汇表,包含不同安全分类标签;对每个安全类别词汇,在词向量空间中取均值,得到该类别的词向量代表;对新词汇,计算向量与各类别代表向量的余弦相似度,公式如下:其中,
A
为词汇的词向量,
A∈R
n


n
维向量;
B
为安全类别
i
的代表词向量,
B∈R
n


n
维向量;
A
·
B

A

B
的点积;
||A||
为词向量
A

L2范数;
||B||
为向量
B

L2范数;
A

B
间角度的余弦值,取值范围
[

1,1]
;设定相似度阈值,大于相似度阈值则认为该词汇与对应的安全类别高度相关;对于相关度低于相似度阈值的词汇,进行人工审核判断安全关联性;反馈人工判断结果,调整相关类别的代表向量;循环上述计算

校验和调整过程,至安全关联计算准确
。4.
如权利要求3所述的项目数据安全信息分级处理方法,其特征在于:所述相似度阈值的设置过程为:采集验证词汇样本,且这些词汇的安全类别已知;对每个验证词汇,计算与各类别代表向量的余弦相似度;将余弦相似度排序,取前
K
个最相似类别;比较前
K
个类别与词汇实际类别的匹配情况;调整相似度阈值,目标为最大化前
K
个匹配的准确率;
构建验证样本的
ROC
曲线,横轴为假正率,即
FPR
,纵轴为真正率,即
TPR
,将曲线中
TPR
高于平均值的点划为预备点集1,将曲线中
FPR
低于平均值的点划分为预备点集2;取同一垂直线上预备点集1和2中的差值最大的值所在的点设为阈值点
。5.
如权利要求4所述的项目数据安全信息分级处理方法,其特征在于:所述判断安全关联程度的步骤如下:构建安全关联知识图谱;对语句实体,在图谱中进行搜索,并返回所有匹配的实体节点;对多义实体,利用上下文过滤掉不相关义项;标记语句中匹配到的实体节点;从标记节点开始,深度优先搜索图谱;遍历节点边缘,推理出多跳关联路径,并设置最大跳数,避免无限遍历循环;返回连接语句实体的所有多跳关联路径;计算路径中关系的可信权重,并累加路径中的关系权重,并输出每个关联路径的可信度;训练神经网络对路径可信度进行判断,设路径
i
的可信度为
r
i

路径长度为
l
i
,则输入为
[r
i
,l
i
]
,使用带标签的路径数据训练网络,标签表示路径的安...

【专利技术属性】
技术研发人员:朱昌会缪新萍吴漾董若烟李文科姚舜王益彰田钺孙收余张克贤汪浩
申请(专利权)人:贵州电网有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1