一种数据库敏感数据识别方法技术

技术编号:37278725 阅读:24 留言:0更新日期:2023-04-20 23:45
本发明专利技术涉及敏感数据识别,具体涉及一种数据库敏感数据识别方法,检测数据库中文本数据的数据类型,并建立相应的敏感数据类型模型;根据文本数据的数据类型确定文本数据对应的特征码;将特征码与设定敏感数据对应的敏感特征码进行比对,根据比对结果判断文本数据中是否存在敏感数据;计算存在敏感数据的文本数据对应的敏感度,根据敏感度确定目标文本数据;基于目标文本数据确定匹配的敏感数据类型模型,利用敏感数据类型模型对目标文本数据进行检测,并根据检测结果确定目标文本数据是否为敏感数据;本发明专利技术提供的技术方案能够有效克服现有技术所存在的数据库敏感数据识别的效率较低,以及无法对数据库中的敏感数据进行准确识别的缺陷。识别的缺陷。识别的缺陷。

【技术实现步骤摘要】
一种数据库敏感数据识别方法


[0001]本专利技术涉及敏感数据识别,具体涉及一种数据库敏感数据识别方法。

技术介绍

[0002]在当前的数据时代,数据已成为企业的核心资产,对数据资产的安全保护、有效掌握和合理利用都是企业关注的重要方面。对于掌握大量结构化数据的企业,无论是多个分散独立的应用数据库,还是存储海量数据的数据仓库,都需要一种简单、高效、实用的敏感数据识别方法来探明敏感数据在数据库中的分布情况,实现对数据库数据的分级分类管理。
[0003]然而,现有的数据库敏感数据识别方法不能对数据库中的海量数据进行高效筛选,导致敏感数据识别的效率较低,并且对于数据库中敏感数据识别的准确性较差,无法对数据库中的敏感数据进行准确地识别。

技术实现思路

[0004](一)解决的技术问题
[0005]针对现有技术所存在的上述缺点,本专利技术提供了一种数据库敏感数据识别方法,能够有效克服现有技术所存在的数据库敏感数据识别的效率较低,以及无法对数据库中的敏感数据进行准确识别的缺陷。
[0006](二)技术方案
[0007]为实现以上目的,本专利技术通过以下技术方案予以实现:
[0008]一种数据库敏感数据识别方法,包括以下步骤:
[0009]S1、检测数据库中文本数据的数据类型,并建立相应的敏感数据类型模型;
[0010]S2、根据文本数据的数据类型确定文本数据对应的特征码;
[0011]S3、将特征码与设定敏感数据对应的敏感特征码进行比对,根据比对结果判断文本数据中是否存在敏感数据;
[0012]S4、计算存在敏感数据的文本数据对应的敏感度,根据敏感度确定目标文本数据;
[0013]S5、基于目标文本数据确定匹配的敏感数据类型模型,利用敏感数据类型模型对目标文本数据进行检测,并根据检测结果确定目标文本数据是否为敏感数据。
[0014]优选地,S1中检测数据库中文本数据的数据类型,并建立相应的敏感数据类型模型,包括:
[0015]基于数据库中文本数据的数据类型设定敏感数据类型,并为各敏感数据类型构建相应的用于识别敏感数据的敏感数据类型模型。
[0016]优选地,S2中根据文本数据的数据类型确定文本数据对应的特征码,包括:
[0017]根据文本数据的数据类型对文本数据进行相应的符号化处理,将符号化处理后的文本数据作为该文本数据对应的特征码。
[0018]优选地,S3中将特征码与设定敏感数据对应的敏感特征码进行比对,根据比对结
果判断文本数据中是否存在敏感数据,包括:
[0019]基于设定敏感数据对应的敏感特征码构建文档链表,分析识别特征码中的关键词,获取包含关键词的文档;
[0020]分析文档与特征码之间的相关性,根据相关性判断文本数据中是否存在敏感数据。
[0021]优选地,S4中计算存在敏感数据的文本数据对应的敏感度,根据敏感度确定目标文本数据,包括:
[0022]基于文本数据的复杂程度,设定用于平衡不同复杂程度的文本数据与敏感数据之间重合度的设定分数;
[0023]基于设定分数计算存在敏感数据的文本数据对应的敏感度,并根据敏感度确定目标文本数据;
[0024]其中,文本数据的复杂程度越高,则相应的设定分数越高。
[0025]优选地,所述基于设定分数计算存在敏感数据的文本数据对应的敏感度,并根据敏感度确定目标文本数据,包括:
[0026]计算文本数据与设定敏感数据之间的匹配度,将文本数据的设定分数与匹配度的乘积作为该文本数据对应的敏感度;
[0027]若文本数据的敏感度大于设定阈值,则判断该文本数据是目标文本数据,否则判断该文本数据不是目标文本数据。
[0028]优选地,S5中基于目标文本数据确定匹配的敏感数据类型模型,包括:
[0029]对目标文本数据中不同数据类型的数据元素与敏感数据类型模型进行一一匹配,确定与目标文本数据中不同数据类型的数据元素相匹配的敏感数据类型模型。
[0030]优选地,S5中利用敏感数据类型模型对目标文本数据进行检测,并根据检测结果确定目标文本数据是否为敏感数据,包括:
[0031]统计目标文本数据中与各敏感数据类型模型相匹配的数据元素长度之和,并计算数据元素长度之和与目标文本数据长度的比值;
[0032]若数据元素长度之和与目标文本数据长度的比值大于设定阈值,则判断该目标文本数据是敏感数据,否则判断该目标文本数据不是敏感数据。
[0033](三)有益效果
[0034]与现有技术相比,本专利技术所提供的一种数据库敏感数据识别方法,具有以下有益效果:
[0035]1)检测数据库中文本数据的数据类型,根据文本数据的数据类型确定文本数据对应的特征码,将特征码与设定敏感数据对应的敏感特征码进行比对,根据比对结果判断文本数据中是否存在敏感数据,通过将文本数据对应的特征码与设定敏感数据对应的敏感特征码进行比对,能够实现对数据库中海量数据的高效筛选,快速筛选出存在敏感数据的文本数据,有效提高了数据库敏感数据识别的效率;
[0036]2)计算存在敏感数据的文本数据对应的敏感度,根据敏感度确定目标文本数据,通过计算敏感度能够对存在敏感数据的文本数据与敏感数据之间的重合度进行衡量,并基于敏感度从存在敏感数据的文本数据中进一步筛选出目标文本数据,有效缩小敏感数据识别范围;
[0037]3)基于目标文本数据确定匹配的敏感数据类型模型,利用敏感数据类型模型对目标文本数据进行检测,并根据检测结果确定目标文本数据是否为敏感数据,从而能够根据目标文本数据中数据元素的数据类型选取匹配的敏感数据类型模型进行针对性地敏感数据识别,使得敏感数据识别的准确性有较大提升。
附图说明
[0038]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为本专利技术的流程示意图;
[0040]图2为本专利技术中判断数据库中的文本数据是否为目标文本数据的流程示意图。
具体实施方式
[0041]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0042]一种数据库敏感数据识别方法,如图1和图2所示,

检测数据库中文本数据的数据类型,并建立相应的敏感数据类型模型,具体包括:
[0043]基于数据库中文本数据的数据类型设定敏感数据类型,并为各敏感数据类型构建相应的用于识别敏感本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据库敏感数据识别方法,其特征在于:包括以下步骤:S1、检测数据库中文本数据的数据类型,并建立相应的敏感数据类型模型;S2、根据文本数据的数据类型确定文本数据对应的特征码;S3、将特征码与设定敏感数据对应的敏感特征码进行比对,根据比对结果判断文本数据中是否存在敏感数据;S4、计算存在敏感数据的文本数据对应的敏感度,根据敏感度确定目标文本数据;S5、基于目标文本数据确定匹配的敏感数据类型模型,利用敏感数据类型模型对目标文本数据进行检测,并根据检测结果确定目标文本数据是否为敏感数据。2.根据权利要求1所述数据库敏感数据识别方法,其特征在于:S1中检测数据库中文本数据的数据类型,并建立相应的敏感数据类型模型,包括:基于数据库中文本数据的数据类型设定敏感数据类型,并为各敏感数据类型构建相应的用于识别敏感数据的敏感数据类型模型。3.根据权利要求1所述数据库敏感数据识别方法,其特征在于:S2中根据文本数据的数据类型确定文本数据对应的特征码,包括:根据文本数据的数据类型对文本数据进行相应的符号化处理,将符号化处理后的文本数据作为该文本数据对应的特征码。4.根据权利要求3所述数据库敏感数据识别方法,其特征在于:S3中将特征码与设定敏感数据对应的敏感特征码进行比对,根据比对结果判断文本数据中是否存在敏感数据,包括:基于设定敏感数据对应的敏感特征码构建文档链表,分析识别特征码中的关键词,获取包含关键词的文档;分析文档与特征码之间的相关性,根据相关性判断文本数据中是否存在敏感数据。5.根据权利要求4所述数据库敏感数据识别方法,其特...

【专利技术属性】
技术研发人员:廉明
申请(专利权)人:长态数安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1