数据脱敏处理方法和装置制造方法及图纸

技术编号:14371758 阅读:75 留言:0更新日期:2017-01-09 17:39
本申请提出一种数据脱敏处理方法和装置,该数据脱敏处理方法包括获取待处理的原始数据;采用预设的算法,对所述原始数据进行处理,得到脱敏处理后的数据,其中,所述预设的算法能够使得所述原始数据的统计量保持不变;输出所述脱敏处理后的数据。该方法实现简单,并且可以用于后续分析和利用。

【技术实现步骤摘要】

本申请涉及数据处理
,尤其涉及一种数据脱敏处理方法和装置
技术介绍
在互联网大数据时代,数据的流动与合作至关重要。但同时,数据中的敏感信息一旦泄露,不但会造成用户权益受损,也带来公司商誉受损,引发信任危机。现有技术中,有几种数据脱敏处理算法,现有技术一是采用加密的方式,例如,对“年龄”进行加密,“32岁”变为“0x01234567”。现有技术二是对原始数据进行线性变换,令Y=aX+b,Y是处理后的数据,X是原始数据,a和b是两个随机数。现有技术三是对原始数据进行分段处理,例如划分为20个段,每个段的取值用这个段的平均值或者中位数替代。但是,现有技术一数据加密后失去原始涵义,无法进行后续分析和利用,现有技术二的数据尺度发生变化,无法进行后续分析和利用,现有技术三根据不同场景需要修改分段边界,且修改会引起大量的工作量。
技术实现思路
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请的一个目的在于提出一种数据脱敏处理方法,该方法实现简单,并且可以用于后续分析和利用。本申请的另一个目的在于提出一种数据脱敏处理装置。为达到上述目的,本申请第一方面实施例提出的数据脱敏处理方法,包括:获取待处理的原始数据;采用预设的算法,对所述原始数据进行处理,得到脱敏处理后的数据,其中,所述预设的算法能够使得所述原始数据的统计量保持不变;输出所述脱敏处理后的数据。本申请第一方面实施例提出的数据脱敏处理方法,通过对原始数据进行预设算法的处理,可以使得脱敏处理后的数据与原始数据不同,实现数据脱敏,另一方面,由于预设的算法能够使得原始数据的统计量保持不变,使得后续的数据分析和利用成为可能,本实施例也不需要划分区段,实现相对简单。为达到上述目的,本申请第二方面实施例提出的数据脱敏处理装置,包括:获取模块,用于获取待处理的原始数据;处理模块,用于采用预设的算法,对所述原始数据进行处理,得到脱敏处理后的数据,其中,所述预设的算法能够使得所述原始数据的统计量保持不变;输出模块,用于输出所述脱敏处理后的数据。本申请第二方面实施例提出的数据脱敏处理装置,通过对原始数据进行预设算法的处理,可以使得脱敏处理后的数据与原始数据不同,实现数据脱敏,另一方面,由于预设的算法能够使得原始数据的统计量保持不变,使得后续的数据分析和利用成为可能,本实施例也不需要划分区段,实现相对简单。本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本申请一实施例提出的数据脱敏处理方法的流程示意图;图2是本申请实施例中原始数据与脱敏处理后的数据的示意图;图3是本申请另一实施例提出的数据脱敏处理方法的流程示意图;图4是本申请另一实施例提出的数据脱敏处理装置的结构示意图;图5是本申请另一实施例提出的数据脱敏处理装置的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的模块或具有相同或类似功能的模块。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。相反,本申请的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本申请一实施例提出的数据脱敏处理方法的流程示意图,该方法包括:S11:获取待处理的原始数据。其中,待处理的原始数据可以是敏感数据,根据不同的使用场景可以选择需要处理的敏感数据,例如,将年龄确定为需要处理的敏感数据。S12:采用预设的算法,对所述原始数据进行处理,得到脱敏处理后的数据,其中,所述预设的算法能够使得所述原始数据的统计量保持不变。现有技术中,虽然实现了数据脱敏,但是数据失去原本涵义或者改变太大,无法为后续分析提供准确的数据基础,也就无法进行后续分析和利用。而本实施例中,采用的脱敏算法是使得原始数据的统计量保持不变的算法,由于统计量不变,即使单个数据有所改变,但不影响整体的统计信息,就会保证后续的分析和利用正常进行。可选的,所述采用预设的算法,对所述原始数据进行处理,得到脱敏处理后的数据,包括:采用如下公式,根据原始数据得到脱敏处理后的数据:Y=(1+a%)*X;其中,X是原始数据,Y是脱敏处理后的数据,a是预设范围内的随机数。具体的,所述a是[-p,p]范围内依据统计分布生成的随机数,其中,p根据所需数据脱敏的程度选择。统计分布例如为均匀分布或者正态分布等。P值越大越模糊,一般情况下p可以使用小于或等于5的正整数。当然,可以理解的是,上述的统计量保持不变不限于数学意义上所有的统计量都不变,可以根据实际情况,在当前情况下预设的一种或者多种统计量保持不变。另外,保持不变的含义也不限于完全相同,还包括在预设误差范围内的相同。统计量例如为均值,中位数等。从上述公式可以看出,对应单个数据,脱敏处理后的数据是在原始数据基础上增加原始值的a%的随机扰动。单个数据的脱敏处理后的数据与原始数据不同,实现了数据脱敏,另一方面,由于增加的是随机扰动,根据大数法则,整个数据的均值,中位数等统计量保持不变,数据尺度基本不变,可以用于后续分析和利用。参见图2,假设p=1,原始数据21采用上述随机扰动算法处理后,可以得到如图2所示的散点22。S13:输出所述脱敏处理后的数据。在得到脱敏处理后的数据之后,可以输出该数据以用于后续的数据分析和利用。可选的,可以对脱敏处理后的数据进行样本量限制,例如,设置样本数量的最大值,在脱敏处理后的数据中选择不大于该最大值的数据,之后输出数据量不大于最大值的脱敏处理后的数据。具体的,在选择时可以采用随机选择或者根据预设算法选择等。本实施例中,通过对原始数据进行预设算法的处理,可以使得脱敏处理后的数据与原始数据不同,实现数据脱敏,另一方面,由于预设的算法能够使得原始数据的统计量保持不变,使得后续的数据分析和利用成为可能,本实施例也不需要划分区段,实现相对简单。图3是本申请另一实施例提出的数据脱敏处理方法的流程示意图,该方法包括:S31:根据身份标识类型数据,获取待处理的原始数据。其中,在数据分析时可能需要获取多种类型的数据,例如,需要获取一个用户的年龄和账户金额等。不同类型的数据可以通过身份标识类型数据获取,例如,对应一个用户,在一个平台内,保存身份标识类型数据与年龄的对应关系,在另一平台内,保存身份标识类型数据与账号金额的对应关系,因此,通过身份标识类型数据可以将其他的不同类型的数据关联,从而获取多种类型的数据。身份标识类型数据例如为用户的身份证号,或者,手机号等。S32:采用预设的算法,对所述原始数据进行处理,得到脱敏处理后的数据,其中,所述预设的算法能够使得所述原始数据的统计量保持不变。在获取不同类型的原始数据后,可以分别采用上述实施例中的脱敏算法进行处理,例如,对于年龄采用Y=(1+a%)*X进行处理,对于账户金额也采用Y=(1+a%)*X,从而分别得到对应不同类型的脱敏处理后的数据。具体的上述公式的含义以及脱敏处理过程可以参见上一实施例,在此不再赘述。S33:对所述身份标识类型数据进行删除或者加密。例如,本文档来自技高网...
数据脱敏处理方法和装置

【技术保护点】
一种数据脱敏处理方法,其特征在于,包括:获取待处理的原始数据;采用预设的算法,对所述原始数据进行处理,得到脱敏处理后的数据,其中,所述预设的算法能够使得所述原始数据的统计量保持不变;输出所述脱敏处理后的数据。

【技术特征摘要】
1.一种数据脱敏处理方法,其特征在于,包括:获取待处理的原始数据;采用预设的算法,对所述原始数据进行处理,得到脱敏处理后的数据,其中,所述预设的算法能够使得所述原始数据的统计量保持不变;输出所述脱敏处理后的数据。2.根据权利要求1所述的方法,其特征在于,所述采用预设的算法,对所述原始数据进行处理,得到脱敏处理后的数据,包括:采用如下公式,根据原始数据得到脱敏处理后的数据:Y=(1+a%)*X;其中,X是原始数据,Y是脱敏处理后的数据,a是预设范围内的随机数。3.根据权利要求2所述的方法,其特征在于,所述a是[-p,p]范围内依据统计分布生成的随机数,其中,p根据所需数据脱敏的程度选择。4.根据权利要求1-3任一项所述的方法,其特征在于,所述获取待处理的原始数据,包括:根据身份标识类型数据,获取待处理的原始数据;在输出所述脱敏处理后的数据之前,对所述身份标识类型数据进行删除或者加密。5.根据权利要求1-3任一项所述的方法,其特征在于,所述输出所述脱敏处理后的数据之前,所述方法还包括:对所述脱敏处理后的数据,进行样本量限制。6.一种数据脱...

【专利技术属性】
技术研发人员:蔡佳良张振宇樊振华
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1