一种敏感数据识别方法及装置制造方法及图纸

技术编号:29460194 阅读:22 留言:0更新日期:2021-07-27 17:29
本发明专利技术公开了一种敏感数据识别方法及装置,所述方法包括如下步骤:步骤S1,建立敏感类型模型,并确定敏感数据匹配比率;步骤S2,扫描欲进行敏感数据识别的数据库,根据数据库的多个维度信息确定相应的敏感类型模型;步骤S3,随机抽取所述数据库中每个表每列的若干数据,将其与确定的敏感类型模型匹配,根据匹配结果判断每列数据是否属于敏感类型。

Sensitive data identification method and device

【技术实现步骤摘要】
一种敏感数据识别方法及装置
本专利技术涉及计算机信息安全
,特别是涉及一种对数据库系统中含有的敏感数据识别的敏感数据识别方法及装置。
技术介绍
敏感数据又称隐私数据,常见的有姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等。目前,银行、保险、证券等金融机构保存的数据含有大量个人隐私的数据,这些与个人生活、工作密切相关的信息受到不同行业和政府数据隐私法规的管制。如果负责存储和发布这些信息的企业或政府无法保证数据隐私,他们就会面临严重的财务、法律或问责风险,同时在用户信任方面蒙受巨大损失。因此,有效可靠的敏感数据检测技术,相当重要。在现有技术中,一般都是指定数据库对应的表名列名来确定是否进行脱敏,然而,这样的方式需要大量人工去完成,并有遗漏敏感数据的可能性,费事费力且效率低下。
技术实现思路
为克服上述现有技术存在的不足,本专利技术之目的在于提供一种敏感数据识别方法及装置,以解决现有技术人工识别工作量大且可能遗漏敏感数据的问题,自动识别数据库是否含有敏感数据,并输出含有敏感数据的列及其类型。为达上述目的,本专利技术提出一种敏感数据识别方法,包括如下步骤:步骤S1,建立敏感类型模型,并确定敏感数据匹配比率;步骤S2,扫描欲进行敏感数据识别的数据库,根据其中各表的各维度信息确定相应的敏感类型模型;步骤S3,随机抽取所述数据库中每个表每列的若干数据,将其与确定的敏感类型模型匹配,根据匹配结果判断每列数据是否属于敏感类型。优选地,步骤S1进一步包括:步骤S100,根据通用的敏感数据定义,建立通用的敏感类型模型;步骤S101,自定义敏感类型,根据自定义的敏感类型建立自定义的敏感数据模型;步骤S102,定义并预设敏感数据匹配比率。优选地,于步骤S2中,扫描欲进行敏感数据识别的数据库,提取所述数据库的库名、表名、表注释,针对各个表获取列名及列注释并进行判断,从而确定相应的敏感类型模模型。优选地,步骤S3进一步包括:步骤S300,对所述数据库的每张表每列数据随机抽取预设数量数据;步骤S301,根据步骤S2确定的敏感类型模型对抽取的当前列数据一一进行匹配,确定其是否与步骤S2中确定的敏感类型模型匹配;步骤S302,根据步骤S301的匹配结果与步骤S1定义的敏感数据匹配比率,确定当前列数据是否属于敏感类型。优选地,于步骤S300中,若当前表当前列的数据量大于预设阈值时,则抽取预设阈值量的数据;若当前表当前列的数据量小于或等于预设阈值时,则将当前表当前列的数据全部抽取。优选地,于步骤S302中,当根据步骤S301的匹配结果,与步骤S2中确定的敏感类型模型匹配的数据量与抽取总量的比值大于步骤S1定义的敏感数据匹配比率,则确定当前列数据属于敏感类型。为达到上述目的,本专利技术还提供一种敏感数据识别装置,包括如下步骤:敏感类型模型构建单元,用于建立敏感类型模型,并确定敏感数据匹配比率;敏感类型模型确定单元,用于扫描欲进行敏感数据识别的数据库,根据其中各表的各维度信息确定相应的敏感类型模型;敏感数据识别单元,用于随机抽取所述数据库中每个表每列的若干数据,将其与确定的敏感类型模型匹配,根据匹配结果判断每列数据是否属于敏感类型。优选地,所述敏感类型模型构建单元进一步包括:通用敏感类型模型构建模块,用于根据通用的敏感数据定义,建立通用的敏感类型模型;自定义敏感类型构建模块,用于自定义敏感类型,根据自定义的敏感类型建立自定义的敏感数据模型;敏感数据匹配比率定义模块,用于定义并预设敏感数据匹配比率。优选地,所述敏感类型模型确定单元扫描欲进行敏感数据识别的数据库,提取所述数据库的库名、表名、表注释,针对各个表获取列名及列注释并进行判断,从而确定相应的敏感类型模模型。优选地,所述敏感数据识别单元进一步包括:抽取模块,用于对所述数据库的每张表每列数据随机抽取预设数量数据;数据匹配模块,根据所述敏感类型模型确定单元确定的敏感类型模型对抽取的当前列数据一一进行匹配,确定是否与所述敏感类型模型确定单元中确定的敏感类型模型匹配;敏感类型确定模块,用于根据所述数据匹配模块的匹配结果与敏感类型模型构建单元定义的敏感数据匹配比率,确定当前列数据是否属于敏感类型。与现有技术相比,本专利技术一种敏感数据识别方法及装置通过建立敏感类型模型,确定敏感数据匹配比率,然后扫描欲进行敏感数据识别的数据库,根据数据库的多个维度信息确定相应的敏感类型模型,随机抽取所述数据库中每个表每列的若干数据,将其与确定的敏感类型模型匹配,根据匹配结果判断每列数据是否属于敏感类型,以自动识别数据库是否含有敏感数据,并输出含有敏感数据的列及其类型的目的,从而解决现有技术人工识别工作量大且可能遗漏敏感数据的问题,附图说明图1为本专利技术一种敏感数据识别方法的步骤流程图;图2为本专利技术一种敏感数据识别装置的系统架构图;图3为本专利技术实施例中敏感数据识别方法的流程图。具体实施方式以下通过特定的具体实例并结合附图说明本专利技术的实施方式,本领域技术人员可由本说明书所揭示的内容轻易地了解本专利技术的其它优点与功效。本专利技术亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本专利技术的精神下进行各种修饰与变更。图1为本专利技术一种敏感数据识别方法的步骤流程图。如图1所示,本专利技术一种敏感数据识别方法,包括如下步骤:步骤S1,建立敏感类型模型,并确定敏感数据匹配比率。具体地,步骤S1进一步包括:步骤S100,根据通用的敏感数据定义,建立通用的敏感类型模型。于步骤S100中,可以根据现行通用的敏感数据定义建立通用的敏感类型模型。例如,现行通用的敏感类型有银行卡号、居民身份证号,电话号码等,而对于每种敏感类型,对应不同的格式特征,例如居民身份证号,其格式为18位全数字或17位数字加末尾一个字母等。步骤S101,根据自定义的敏感数据,建立自定义的敏感数据模型。也就是说,在本专利技术中,用户还可以对敏感数据进行自定义,例如用户可以自定义如金融行业、基金代码等非常见的敏感数据类型,并根据其对应的特征,构建自定义敏感数据模型。步骤S102,确定敏感数据匹配比率。在本专利技术中,预先确定并设置敏感数据匹配比率,本专利技术确定敏感数据匹配比率的目的是当数据库中某列的数据匹配对应的敏感类型模型超过该敏感数据匹配比率时,才将该列数据识别为敏感数据。例如当确定敏感数据匹配比率为50%时,只有当某列数据的匹配数据量超过检测总量的50%,认为该列数据为敏感数据。步骤S2,扫描要进行敏感数据识别的数据库,根据数据库中各表的维度信息确定相应的敏感类型模型。在本专利技术具体实施例中,扫描要进行敏感数据识别的数据库,提取数据库的库名、表名、表注释,并针对各个表的若干维度信息确定本文档来自技高网...

【技术保护点】
1.一种敏感数据识别方法,包括如下步骤:/n步骤S1,建立敏感类型模型,并确定敏感数据匹配比率;/n步骤S2,扫描欲进行敏感数据识别的数据库,根据其中各表的各维度信息确定相应的敏感类型模型;/n步骤S3,随机抽取所述数据库中每个表每列的若干数据,将其与确定的敏感类型模型匹配,根据匹配结果判断每列数据是否属于敏感类型。/n

【技术特征摘要】
1.一种敏感数据识别方法,包括如下步骤:
步骤S1,建立敏感类型模型,并确定敏感数据匹配比率;
步骤S2,扫描欲进行敏感数据识别的数据库,根据其中各表的各维度信息确定相应的敏感类型模型;
步骤S3,随机抽取所述数据库中每个表每列的若干数据,将其与确定的敏感类型模型匹配,根据匹配结果判断每列数据是否属于敏感类型。


2.如权利要求1所述的一种敏感数据识别方法,其特征在于,步骤S1进一步包括:
步骤S100,根据通用的敏感数据定义,建立通用的敏感类型模型;
步骤S101,自定义敏感类型,根据自定义的敏感类型建立自定义的敏感数据模型;
步骤S102,定义并预设敏感数据匹配比率。


3.如权利要求2所述的一种敏感数据识别方法,其特征在于:于步骤S2中,扫描欲进行敏感数据识别的数据库,提取所述数据库的库名、表名、表注释,针对各个表获取列名及列注释并进行判断,从而确定相应的敏感类型模模型。


4.如权利要求3所述的一种敏感数据识别方法,其特征在于,步骤S3进一步包括:
步骤S300,对所述数据库的每张表每列数据随机抽取预设数量数据;
步骤S301,根据步骤S2确定的敏感类型模型对抽取的当前列数据一一进行匹配,确定其是否与步骤S2中确定的敏感类型模型匹配;
步骤S302,根据步骤S301的匹配结果与步骤S1定义的敏感数据匹配比率,确定当前列数据是否属于敏感类型。


5.如权利要求4所述的一种敏感数据识别方法,其特征在于,于步骤S300中,若当前表当前列的数据量大于预设阈值时,则抽取预设阈值量的数据;若当前表当前列的数据量小于或等于预设阈值时,则将当前表当前列的数据全部抽取。


6.如权利要求5所述的一种敏感数据识别方法,其特征在于:于步骤S302中,当根据步骤S3...

【专利技术属性】
技术研发人员:杜晋瑞陈勇铨周华江俊
申请(专利权)人:上海英方软件股份有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1