数据脱敏平台敏感数据识别方法、装置、设备及介质制造方法及图纸

技术编号:19009415 阅读:47 留言:0更新日期:2018-09-22 09:15
本发明专利技术提供了一种数据脱敏平台敏感数据识别方法、装置、设备及介质。其中,该方法包括:建立敏感数据的识别规则集和待扫描字段集,识别规则集包括:一种或者多种敏感数据类型及其识别规则;根据识别规则集,扫描待扫描字段集;当从待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将敏感数据类型及其识别规则从识别规则集中删除,并继续根据识别规则集中剩下的敏感数据类型及其识别规则扫描待扫描字段集,直至识别规则集为空或者待扫描字段集中需要扫描的字段全部扫描完毕。通过本发明专利技术,解决了相关技术中的敏感数据识别方法系统开销大的问题,降低了敏感数据识别的系统开销。

Data desensitization platform sensitive data identification method, device, equipment and medium

The invention provides a data desensitization platform sensitive data identification method, device, equipment and medium. Among them, the method includes: establishing the recognition rule set of sensitive data and the field set to be scanned. The recognition rule set includes one or more sensitive data types and their recognition rules; scanning the field set to be scanned according to the recognition rule set; and scanning the field set of sensitive data types when the number of fields scanned from the field set to be scanned exceeds the number of fields. When the preset threshold is over, the sensitive data types and their recognition rules are deleted from the recognition rule set, and the field set to be scanned is scanned according to the remaining sensitive data types and their recognition rules in the recognition rule set until the recognition rule set is empty or all the fields to be scanned in the field set to be scanned are scanned. . The invention solves the problem of large system overhead of the sensitive data identification method in the related technology, and reduces the system overhead of the sensitive data identification.

【技术实现步骤摘要】
数据脱敏平台敏感数据识别方法、装置、设备及介质
本专利技术涉及数据脱敏领域,具体而言,涉及一种数据脱敏平台敏感数据识别方法、装置、设备及介质。
技术介绍
随着各行业向信息化转型,信息安全成为社会各界关注的焦点。机票短信诈骗对民航业务链上的单位也产生了非常大负面影响,旅客信息安全已经被推到了风口浪尖上。中国民航信息网络股份有限公司所运营的信息系统中既包含旅客身份信息、支付信息、联系方式等旅客敏感数据,也包含航空公司票价、折扣、航线等商业机密信息,且数量巨大。生产系统中,这些信息通过严格的权限管理保障数据的安全。信息系统的开发、测试等环节中,同样需要使用到这些信息,但信息接触的人群范围比生产系统要大很多,权限限制相对于生产系统也较为宽松。因此,对于信息系统中巨量的数据中敏感数据的识别是数据脱敏的重要环节。相关技术中敏感数据识别一般采用关键字匹配的方式,这种方式采用固定的关键字数据库对待扫描字段全文进行扫描,以识别待扫描字段中是否存在敏感数据。采用这种方式扫描敏感数据,由于采用了固定的关键字数据库,因此即使已经扫描到某一类型字段中存在了大量的同种类型的敏感数据,在对该类型字段的其他数据进行下一次扫描时仍然会采用固定的关键字数据库再次扫描,从而占用了大量的系统开销。综上所述,针对相关技术中的敏感数据识别方法系统开销大的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术提供了一种数据脱敏平台敏感数据识别方法、装置、设备及介质,以至少解决相关技术中的敏感数据识别方法系统开销大的问题。第一方面,本专利技术实施例提供了一种数据脱敏平台敏感数据识别方法,所述方法包括:建立敏感数据的识别规则集和待扫描字段集,所述识别规则集包括:一种或者多种敏感数据类型及其识别规则;根据所述识别规则集,扫描所述待扫描字段集;当从所述待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将所述敏感数据类型及其识别规则从所述识别规则集中删除,并继续根据所述识别规则集中剩下的敏感数据类型及其识别规则扫描所述待扫描字段集,直至所述识别规则集为空或者所述待扫描字段集中需要扫描的字段全部扫描完毕。第二方面,本专利技术实施例提供了一种数据脱敏平台敏感数据识别装置,所述装置包括:建立模块,用于建立敏感数据的识别规则集和待扫描字段集,所述识别规则集包括:一种或者多种敏感数据类型及其识别规则;扫描模块,用于根据所述识别规则集,扫描所述待扫描字段集;处理模块,用于当从所述待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将所述敏感数据类型及其识别规则从所述识别规则集中删除,并继续根据所述识别规则集中剩下的敏感数据类型及其识别规则扫描所述待扫描字段集,直至所述识别规则集为空或者所述待扫描字段集中需要扫描的字段全部扫描完毕。第三方面,本专利技术实施例提供了一种数据脱敏平台敏感数据识别设备,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现第一方面所述的方法。第四方面,本专利技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现第一方面所述的方法。通过本专利技术实施例提供的数据脱敏平台敏感数据识别方法、装置、设备及介质,采用建立敏感数据的识别规则集和待扫描字段集,识别规则集包括:一种或者多种敏感数据类型及其识别规则;根据识别规则集,扫描待扫描字段集;当从待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将敏感数据类型及其识别规则从识别规则集中删除,并继续根据识别规则集中剩下的敏感数据类型及其识别规则扫描待扫描字段集,直至识别规则集为空或者待扫描字段集中需要扫描的字段全部扫描完毕的方式,解决了相关技术中的敏感数据识别方法系统开销大的问题,降低了敏感数据识别的系统开销。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的数据脱敏平台敏感数据识别方法的流程图;图2是根据本专利技术实施例的数据脱敏平台敏感数据识别装置的结构示意图;图3是根据本专利技术实施例的数据脱敏平台敏感数据识别设备的硬件结构图;图4是根据本专利技术优选实施例的数据脱敏平台敏感数据识别方法的流程图;图5是根据本专利技术优选实施例的敏感数据扫描策略动态调整过程的流程图;图6是根据本专利技术优选实施例的建立基础敏感数据类型的界面示意图;图7是根据本专利技术优选实施例的建立识别规则集的界面示意图;图8是根据本专利技术优选实施例的识别规则集绑定扫描字段集的界面示意图。具体实施方式下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅用于解释本专利技术,并不用于限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。在本实施例中提供了一种数据脱敏平台敏感数据识别方法,图1是根据本专利技术实施例的数据脱敏平台敏感数据识别方法的流程图,如图1所示,该流程包括如下步骤:步骤S101,建立敏感数据的识别规则集和待扫描字段集,识别规则集包括:一种或者多种敏感数据类型及其识别规则;步骤S102,根据识别规则集,扫描待扫描字段集;步骤S103,当从待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将敏感数据类型及其识别规则从识别规则集中删除,并继续根据识别规则集中剩下的敏感数据类型及其识别规则扫描待扫描字段集,直至识别规则集为空或者待扫描字段集中需要扫描的字段全部扫描完毕。通过上述步骤,设置一个预设阈值,在扫描出来的某一敏感数据类型的字段数量超过预设阈值时,认为该待扫描字段集中存在该敏感数据类型的字段;此时将该敏感数据类型及其识别规则从识别规则集中删除,而进行剩余的扫描以识别该待扫描字段集中是否存在其他的敏感数据类型。可见,由于识别规则集中识别规则的减少,减少了系统开销,提高了识别效率。可选地,在识别规则集为空或者待扫描字段集全部扫描完毕之后,输出待扫描字段集的敏感数据识别结果。敏感数据识别结果包括:已经扫描出来的敏感数据类型,和/或扫描到的各类敏感数据类型的字段的数量。可选地,敏感数据类型包括但不限于以下至少之一:身份证号码、护照号码、军官证号码、银行卡号码、常客卡号码、手机号码、电话号码、邮箱、联系地址。可本文档来自技高网...
数据脱敏平台敏感数据识别方法、装置、设备及介质

【技术保护点】
1.一种数据脱敏平台敏感数据识别方法,其特征在于,所述方法包括:建立敏感数据的识别规则集和待扫描字段集,所述识别规则集包括:一种或者多种敏感数据类型及其识别规则;根据所述识别规则集,扫描所述待扫描字段集;当从所述待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将所述敏感数据类型及其识别规则从所述识别规则集中删除,并继续根据所述识别规则集中剩下的敏感数据类型及其识别规则扫描所述待扫描字段集,直至所述识别规则集为空或者所述待扫描字段集中需要扫描的字段全部扫描完毕。

【技术特征摘要】
1.一种数据脱敏平台敏感数据识别方法,其特征在于,所述方法包括:建立敏感数据的识别规则集和待扫描字段集,所述识别规则集包括:一种或者多种敏感数据类型及其识别规则;根据所述识别规则集,扫描所述待扫描字段集;当从所述待扫描字段集中扫描出来的敏感数据类型的字段数量超过预设阈值的情况下,将所述敏感数据类型及其识别规则从所述识别规则集中删除,并继续根据所述识别规则集中剩下的敏感数据类型及其识别规则扫描所述待扫描字段集,直至所述识别规则集为空或者所述待扫描字段集中需要扫描的字段全部扫描完毕。2.根据权利要求1所述的方法,其特征在于,在所述识别规则集为空或者所述待扫描字段集全部扫描完毕之后,所述方法还包括:输出所述待扫描字段集的敏感数据识别结果。3.根据权利要求1所述的方法,其特征在于,所述敏感数据类型包括以下至少之一:身份证号码、护照号码、军官证号码、银行卡号码、常客卡号码、手机号码、电话号码、邮箱、联系地址。4.根据权利要求1所述的方法,其特征在于,根据所述识别规则集,扫描所述待扫描字段集包括:将所述识别规则集与所述待扫描字段集中的一个或者多个字段分别绑定;使用所述识别规则集分别扫描所述待扫描字段集中与所述识别规则集绑定的一个或者多个字段。5.根据权利要求1所述的方法,其特征在于,根据所述识别规则集,扫描所述待扫描字段集包括:根据所述识别规则集和所述待扫描字段集,生成扫描任务;执行所述扫描任务。6.根据权利要求5所述的方法,其特征在于,执行所述扫描任务包括...

【专利技术属性】
技术研发人员:李鹏王明付征
申请(专利权)人:中国民航信息网络股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1