一种数据脱敏的方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:22056158 阅读:28 留言:0更新日期:2019-09-07 15:34
本发明专利技术提供了一种数据脱敏的方法、装置、存储介质及计算机设备,其中,该方法包括:建立脱敏模型,脱敏模型的输入为字段和与字段相应的数据,输出为数据的脱敏规则;确定待脱敏数据以及与待脱敏数据相应的待脱敏字段,将待脱敏数据和待脱敏字段作为脱敏模型的输入,确定待脱敏数据的脱敏规则;根据确定的待脱敏数据的脱敏规则对待脱敏数据进行脱敏处理。该方法基于数据和字段两个维度来确定待脱敏数据的脱敏规则,可以使得确定脱敏规则的结果更加准确;且该方法适用于确定数据库中的大量数据的脱敏规则,可以省去人工去逐条设置脱敏规则的繁琐工作,在提高数据脱敏效率的同时,还可以节约人力成本。

A Data Desensitization Method, Device, Storage Media and Computer Equipment

【技术实现步骤摘要】
一种数据脱敏的方法、装置、存储介质及计算机设备
本专利技术涉及数据脱敏
,特别涉及一种数据脱敏的方法、装置、存储介质及计算机设备。
技术介绍
敏感信息一般指涉及隐私权的信息,包括财产信息、健康生理信息、生物识别信息、身份信息和网络身份标识信息等,比如,身份证号、银行卡号、电话号码、网页浏览记录、行踪轨迹等。由于敏感信息可能涉及用户或其他主体的隐私信息,故需要采用数据安全防护手段防止数据泄露,一般采用数据脱敏、或加密的方法保护数据的隐私性和安全性。例如,可以利用掩码脱敏的方法将11位的手机号码修改为“135xxxx6789”,其中的四位数“xxxx”即为隐去的信息。目前存在多种脱敏方法,而不同类型的敏感数据可能适用于不同的脱敏方法,且按照业务需求、同类型数据的脱敏方法也可能存在不同。当前在选择脱敏方法时,主要依赖操作人员手工设定,过程较为繁琐;同时还需要根据业务实际需要与管控内部要求共同协商制定,许多字段的规则无法简单复用,但若按逐个确认又十分消耗人力与时间。
技术实现思路
为解决现有技术中存在问题,本专利技术提供一种数据脱敏的方法、装置、存储介质及计算机设备。根据本专利技术的第一个方面,提供一种数据脱敏的方法,包括:建立脱敏模型,所述脱敏模型的输入为字段和与所述字段相应的数据,输出为所述数据的脱敏规则;确定待脱敏数据以及与所述待脱敏数据相应的待脱敏字段,将所述待脱敏数据和待脱敏字段作为所述脱敏模型的输入,确定所述待脱敏数据的脱敏规则;根据确定的所述待脱敏数据的脱敏规则对所述待脱敏数据进行脱敏处理。根据本专利技术的第二个方面,提供一种数据脱敏的装置,包括:模型建立模块,用于建立脱敏模型,所述脱敏模型的输入为字段和与所述字段相应的数据,输出为所述数据的脱敏规则;处理模块,用于确定待脱敏数据以及与所述待脱敏数据相应的待脱敏字段,将所述待脱敏数据和待脱敏字段作为所述脱敏模型的输入,确定所述待脱敏数据的脱敏规则;脱敏模块,用于根据确定的所述待脱敏数据的脱敏规则对所述待脱敏数据进行脱敏处理。根据本申请的第三个方面,提供一种计算机可读存储介质,其上存储有计算机可读指令,该计算机可读指令被处理器执行时实现数据脱敏的步骤。根据本申请的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现数据脱敏的步骤。本专利技术实施例提供的一种数据脱敏的方法、装置、存储介质及计算机设备,建立输入是字段和相应数据的脱敏模型,在需要确定待脱敏数据的脱敏规则时,将该待脱敏数据以及相应的待脱敏字段作为脱敏模型的输入,通过脱敏模型可以确定待脱敏数据的脱敏规则。基于数据和字段两个维度来确定待脱敏数据的脱敏规则,可以使得确定脱敏规则的结果更加准确;且该方法适用于确定数据库中的大量数据的脱敏规则,可以省去人工去逐条设置脱敏规则的繁琐工作,在提高数据脱敏效率的同时,还可以节约人力成本。通过对样本数据进行分段,可以更加突出样本数据在脱敏过程中的处理特点;将样本数据和样本子数据综合起来作为脱敏模型的输入进行训练,使得训练后的脱敏模型更能体现样本数据与相应的脱敏规则之间的关联关系。通过为样本字段设置权重值的方式来提高具有多个样本数据的样本字段的权重,在确定分词总数量以及每个分词在分词集合中的数量时均引入该权重值,使得分词的词频更符合该样本集的特性,提高了样本字段与相应的脱敏规则之间的关联关系,从而提高利用脱敏模型确定脱敏规则的的准确性。通过利用第二脱敏规则对待脱敏子数据进行脱敏处理,可以将脱敏处理的粒度精细到子数据的维度,使得脱敏处理更加精细、准确。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术实施例提供的数据脱敏的方法流程示意图;图2为本专利技术实施例提供的数据脱敏方法中,建立脱敏模型的具体方法流程示意图;图3为本专利技术实施例提供的数据脱敏的装置的结构示意图;图4为本专利技术实施例提供的用于执行数据脱敏方法的计算机设备的结构示意图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。本专利技术实施例提供的一种数据脱敏的方法,参见图1所示,包括:步骤101:建立脱敏模型,脱敏模型的输入为字段和与字段相应的数据,输出为数据的脱敏规则。本专利技术实施例中,通过建立输出为脱敏规则的脱敏模型的方式,实现智能确定用户所需的脱敏规则。具体的,该脱敏模型的输入为字段和与字段相应的数据,输出为数据的脱敏规则。其中,字段具体可以为文字形式、数字形式等,比如“身份证号”、“2018”、“姓名”等;该数据具体为文字形式或者数字形式,比如“110105……”(身份证号码),或“张三”、“李四”(姓名)等。一个字段可以那个一个或多个数据,即可以以数据库的形式存储字段和数据。例如,字段“姓名”对应多个数据,包括数据“张三”、数据“李四”等。脱敏规则为对数据进行脱敏处理的具体方式,例如,脱敏规则包括屏蔽脱敏、变形脱敏、掩码脱敏、替换脱敏、随机脱敏、格式保留加密和数据加密等。同时,一般情况下还会设置脱敏的位数以及脱敏的位置,即从数据的哪一位开始进行脱敏,且脱敏的位数是特定的。例如,某个脱敏规则为将11位的手机号码修改为“135xxxx6789”,其中的四位数“xxxx”即为隐去的信息,则该脱敏规则对应的脱敏位置即为数据的第4位,脱敏位数为4位。同时,若数据不是敏感数据,则不需要对该数据进行脱敏,即此时输出的脱敏规则可以为不脱敏,或者为空。步骤102:确定待脱敏数据以及与待脱敏数据相应的待脱敏字段,将待脱敏数据和待脱敏字段作为脱敏模型的输入,确定待脱敏数据的脱敏规则。本专利技术实施例中,在建立脱敏模型后即可基于该脱敏模型确定待脱敏数据的脱敏规则。其中,由于待脱敏字段可能包含多个数据,本专利技术实施例中以待脱敏数据为最小单元作为脱敏模型的数据,即将每个待脱敏数据和相应的待脱敏字段分别作为该脱敏模型的输入。例如,待脱敏字段为“出生日期”,待脱敏数据包括“01/12”和“11/06”,则可以将其拆分为两组:“出生日期-01/12”、“出生日期-11/06”,分别将每组的数据和字段作为脱敏模型的输入来确定每个待脱敏数据的脱敏规则。步骤103:根据确定的待脱敏数据的脱敏规则对待脱敏数据进行脱敏处理。本专利技术实施例中,在确定该待脱敏数据的脱敏规则后,即可对待脱敏数据进行脱敏处理,以提高该待脱敏数据的安全性。例如,基于该脱敏模型所确定的脱敏规则为隐去数据的第4位至第7位,则可以将待脱敏数据的第4位至第7位的数据替换为“xxxx”,或者直接删除。同时,当需要对大量的数据进行脱敏处理时,可以根据该脱敏模型确定每个数据对应的脱敏规则,从而实现大量数据的脱敏处理。可选的,当待脱敏的数据为数据库中的一列数据、一个数据表或整个数本文档来自技高网...

【技术保护点】
1.一种数据脱敏的方法,其特征在于,包括:建立脱敏模型,所述脱敏模型的输入为字段和与所述字段相应的数据,输出为所述数据的脱敏规则;确定待脱敏数据以及与所述待脱敏数据相应的待脱敏字段,将所述待脱敏数据和待脱敏字段作为所述脱敏模型的输入,确定所述待脱敏数据的脱敏规则;根据确定的所述待脱敏数据的脱敏规则对所述待脱敏数据进行脱敏处理。

【技术特征摘要】
1.一种数据脱敏的方法,其特征在于,包括:建立脱敏模型,所述脱敏模型的输入为字段和与所述字段相应的数据,输出为所述数据的脱敏规则;确定待脱敏数据以及与所述待脱敏数据相应的待脱敏字段,将所述待脱敏数据和待脱敏字段作为所述脱敏模型的输入,确定所述待脱敏数据的脱敏规则;根据确定的所述待脱敏数据的脱敏规则对所述待脱敏数据进行脱敏处理。2.根据权利要求1所述的方法,其特征在于,所述建立脱敏模型包括:获取样本集,所述样本集包括样本字段、与所述样本字段相对应的一个或多个样本数据以及每个样本数据的预设脱敏规则;将所述样本字段和相对应的样本数据作为预设的脱敏模型的输入、将所述样本数据的预设脱敏规则作为所述脱敏模型的输出,对所述脱敏模型进行训练,确定训练后的脱敏模型;根据测试集对训练后的所述脱敏模型进行测试,在所述脱敏模型通过测试时,将训练后的所述脱敏模型作为最终建立的脱敏模型。3.根据权利要求2所述的方法,其特征在于,所述将所述样本字段和相对应的样本数据作为预设的脱敏模型的输入包括:根据预设脱敏规则中的规则信息对相应的样本数据进行分段处理,确定每段的样本子数据,所述预设脱敏规则的规则信息包括脱敏位置和脱敏位数;根据所述样本数据生成数据总特征向量,并根据每段的所述样本子数据生成相应的数据子特征向量,将所述数据总特征数据向量和所有的所述数据子特征向量作为脱敏模型的输入。4.根据权利要求2所述的方法,其特征在于,所述将所述样本字段和相对应的样本数据作为预设的脱敏模型的输入包括:分别对样本集中的所述样本字段进行分词处理,确定每个所述样本字段的分词;将所有所述样本字段的分词作为分词集合,确定所述样本字段每个分词在所述分词集合中的词频;根据分词的词频生成所述样本字段的字段特征向量,并将所述字段特征向量作为脱敏模型的输入。5.根据权利要求4所述的方法,其特征在于,所述将所有所述样本字段的分词作为分词集合,确定所述样本字段每个分词在所述分词集合中的词频,包括:分别确定所述样本集中每个所述样本字段所对应的样本数据的数量ωi,ωi表示第i个样本字段所对应的样本数量,i∈[1,n],n为所述样本集中的样本字段的数量;将ωi作为所述样本字段中的每个分词的数量...

【专利技术属性】
技术研发人员:许超俊
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1