基于朴素贝叶斯算法的数据安全分类方法、系统及设备技术方案

技术编号:38373896 阅读:11 留言:0更新日期:2023-08-05 17:36
本发明专利技术属于数据处理领域,具体涉及了一种基于朴素贝叶斯算法的数据安全分类方法、系统及设备,旨在解决传统的数据安全产品扫描敏感数据,精准度完全依赖于正则规则丰富度及准确性,难以确保数据识别遗漏、偏移、准确率低的问题。本发明专利技术包括:预先设定数据安全等级;基于所述数据安全等级,建立数据安全等级与特征点之间的映射,并存入标准库;获取待测数据特征点,基于所述映射并通过朴素贝叶斯算法获取待测数据属于各数据安全等级的发生概率,输出发生概率最高的数据安全等级。本发明专利技术通过以特征点为数据安全等级划分依据,并通过朴素贝叶斯算法进行分类,逻辑性十分简单,并且算法较为稳定,提高了分类的可靠性。提高了分类的可靠性。提高了分类的可靠性。

【技术实现步骤摘要】
基于朴素贝叶斯算法的数据安全分类方法、系统及设备


[0001]本专利技术属于数据处理领域,具体涉及了一种基于朴素贝叶斯算法的数据安全分类方法、系统及设备。

技术介绍

[0002]在大力发展数字经济的背景下,数据首次作为生产要素,被放在了生产生活的重要位置,因此保障数据安全就是保生产保稳定。维护数据安全主要针对的是敏感数据、重要数据的保护。其中对复杂数据划分安全等级是必要且首先要做的事项,只有准确的划分出重要数据,才能实现后续的保护。
[0003]现有技术主要使用安全扫描工具检索文件内容,通过正则表达式的匹配,去鉴别一份未知数据的安全等级,从而决策能否可以传输。在数据安全分级方面,已经存在基于人工智能的数据安全分类方法,比如《数据隐私治理》方案提出要全面消除资产管理黑洞,实现对无特征数据的可纳可管。《数据治理安全方法体系》提出,要基于AI实现敏感数据自动发现和分类分级,自动打标完成入湖。另外在电力领域《物联网环境下电力数据安全分级算法的研究》,提出独创的混合特征分类算法比传统算法提高了分类准确率80%以上。
[0004]由于传统的数据安全产品扫描敏感数据,精准度完全依赖于正则规则丰富度及准确性,难以确保数据识别遗漏、偏移、准确率低。需要提供一种优化安全分级的算法以提高数据识别准确性。

技术实现思路

[0005]为了解决现有技术中的上述问题,即传统的数据安全产品扫描敏感数据,精准度完全依赖于正则规则丰富度及准确性,难以确保数据识别遗漏、偏移、准确率低的问题,本专利技术提供了一种基于朴素贝叶斯算法的数据安全分类方法,所述方法包括:
[0006]预先设定数据安全等级;
[0007]基于所述数据安全等级,建立数据安全等级与特征点之间的映射,并存入标准库;所述特征点为预先划定的敏感数据、关键词或语义特征;
[0008]获取待测数据特征点,基于所述映射并通过朴素贝叶斯算法获取待测数据属于各数据安全等级的发生概率,输出发生概率最高的数据安全等级。
[0009]在一些优选的实施方式中,所述数据安全等级,设定为具有高低关系的多个等级。
[0010]在一些优选的实施方式中,所述数据安全等级与特征点之间的映射,包括:
[0011]将所有设定的特征点的有/无情况进行排列组合,并为每一种排列组合划分数据安全等级,计算每种数据安全等级与特征点的类条件概率。
[0012]在一些优选的实施方式中,所述待测数据属于各数据安全等级的发生概率,其获得方法包括:
[0013]计算待测数据属于某一数据安全等级Y的后验概率为:
[0014][0015]其中,输入的待测数据为D={d1,d2,...,d
n
},待测数据的特征属性集为X={x1,x2,...,x
d
},类变量为Y={y1,y2,...,m},证据为P(X),类条件概率为P(X|Y),Y的先验概率为P(Y)。
[0016]在一些优选的实施方式中,所述待测数据属于某一类别的条件概率,其具体算法为:
[0017]设定类变量Y为特定的数据安全等级y,将所述待测数据属于某一数据安全等级的后验概率P(Y|X)转化为待测数据属于特定的数据安全等级y的类条件概率:
[0018][0019]其中,i表示特征序号;
[0020]基于所述待测数据属于特定的数据安全等级y的类条件概率计算后验概率P
post
为:
[0021][0022]由于证据P(X)的数值不变,获得所述待测数据属于设定类别y
i
的概率为:
[0023][0024]其中,j表示与i不同的特征序号,x
j
表示在设定类别y
i
下特征值x1至特征值x
d
中的任一特征值。
[0025]本专利技术的另一方面,提出了一种基于朴素贝叶斯算法的数据安全分类系统,所述系统包括:
[0026]安全等级设定模块,配置为预先设定数据安全等级;
[0027]映射构建模块,配置为基于所述数据安全等级,建立数据安全等级与特征点之间的映射,并存入标准库;所述特征点为预先划定的敏感数据、关键词或语义特征;
[0028]数据分级模块,配置为获取待测数据特征点,基于所述映射并通过朴素贝叶斯算法获取待测数据属于各数据安全等级的发生概率,输出发生概率最高的数据安全等级。
[0029]在一些优选的实施方式中,所述安全等级设定模块,具体配置为将数据安全等级设定为具有高低关系的多个等级。
[0030]在一些优选的实施方式中,所述映射构建模块,具体配置为将所有设定的特征点的有/无情况进行排列组合,并为每一种排列组合划分数据安全等级,计算每种数据安全等级与特征点的类条件概率。
[0031]本专利技术的第三方面,提出了一种电子设备,包括:
[0032]至少一个处理器;以及
[0033]与至少一个所述处理器通信连接的存储器;其中,
[0034]所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行
以实现上述的基于朴素贝叶斯算法的数据安全分类方法。
[0035]本专利技术的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于朴素贝叶斯算法的数据安全分类方法。
[0036]本专利技术的有益效果:
[0037](1)本专利技术提供的基于朴素贝叶斯算法的数据安全分类方法通过以特征点为数据安全等级划分依据,并通过朴素贝叶斯算法进行分类,逻辑性十分简单,并且算法较为稳定,提高了分类的可靠性。
附图说明
[0038]通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
[0039]图1是本专利技术实施例中基于朴素贝叶斯算法的数据安全分类方法的流程示意图。
具体实施方式
[0040]下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。
[0041]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0042]本专利技术提供一种基于朴素贝叶斯算法的数据安全分类方法,本方法提供的基于朴素贝叶斯算法的数据安全分类方法通过以特征点为数据安全等级划分依据,并通过朴素贝叶斯算法进行分类,逻辑性十分简单,并且算法较为稳定,提高了分类的可靠性。
[0043]本专利技术的一种基于朴素贝叶斯算法的数据安全分类方法,所述方法包括:
[0044]预先设定数据安全等级;
[0045]基于所述数据安全等级,建立数据安全等级与特征点之间的映射,并存入标准库;所述特征点为预先划定的敏感数据、关键词或语义特征;...

【技术保护点】

【技术特征摘要】
1.一种基于朴素贝叶斯算法的数据安全分类方法,其特征在于,所述方法包括:预先设定数据安全等级;基于所述数据安全等级,建立数据安全等级与特征点之间的映射,并存入标准库;所述特征点为预先划定的敏感数据、关键词或语义特征;获取待测数据特征点,基于所述映射并通过朴素贝叶斯算法获取待测数据属于各数据安全等级的发生概率,输出发生概率最高的数据安全等级。2.根据权利要求1所述的基于朴素贝叶斯算法的数据安全分类方法,其特征在于,所述数据安全等级,设定为具有高低关系的多个等级。3.根据权利要求2所述的基于朴素贝叶斯算法的数据安全分类方法,其特征在于,所述数据安全等级与特征点之间的映射,包括:将所有设定的特征点的有/无情况进行排列组合,并为每一种排列组合划分数据安全等级,计算每种数据安全等级与特征点的类条件概率。4.根据权利要求3所述的基于朴素贝叶斯算法的数据安全分类方法,其特征在于,所述待测数据属于各数据安全等级的发生概率,其获得方法包括:计算待测数据属于某一数据安全等级Y的后验概率为:其中,输入的待测数据为D={d1,d2,...,d
n
},待测数据的特征属性集为X={x1,x2,...,x
d
},类变量为Y={y1,y2,...,m},证据为P(X),类条件概率为P(X|Y),Y的先验概率为P(Y)。5.根据权利要求2所述的基于朴素贝叶斯算法的数据安全分类方法,其特征在于,所述待测数据属于某一类别的条件概率,其具体算法为:设定类变量Y为特定的数据安全等级y,将所述待测数据属于某一数据安全等级的后验概率P(Y|X)转化为待测数据属于特定的数据安全等级y的类条件概率:其中,i表示特征序号;基于所述待测数据属于特定的数据安全等级y的类条件概率计算后验概率P
post
为:由于证...

【专利技术属性】
技术研发人员:韩雅安张文宏胡之才杨晓华
申请(专利权)人:航天科工网络信息发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1