本地化差分隐私与中心化差分隐私结合的数据脱敏方法技术

技术编号:36292272 阅读:43 留言:0更新日期:2023-01-13 10:05
本发明专利技术提出一种本地化差分隐私与中心化差分隐私结合的数据脱敏方法,其步骤为:(1)对数据的数据项属性,划分为高敏感属性、中敏感属性、低敏感属性。(2)对高敏感属性数据项,采用本地化差分隐私算法进行数据脱敏。(3)对中敏感属性数据项,采用中心化差分隐私算法进行数据脱敏。本发明专利技术将本地化差分隐私和中心化隐私结合,有利于取得数据脱敏方法的通用性和可用性的平衡。用性的平衡。用性的平衡。

【技术实现步骤摘要】
本地化差分隐私与中心化差分隐私结合的数据脱敏方法


[0001]本专利技术涉及数据脱敏领域,尤其涉及一种本地化差分隐私与中心化差分隐私结合的数据脱敏方法。

技术介绍

[0002]差分隐私是目前数据脱敏的主流技术,具有抵抗基于背景知识攻击和提供严格数学证明的优点。差分隐私算法分为本地化差分隐私算法和中心化差分隐私算法两种。现有基于差分隐私的脱敏方法,往往只采用一种方法。如果只采用本地化差分隐私,服务商不用担心原始数据泄露从而导致隐私泄露,但目前没有一种能够适用于所有数据分析的差分隐私算法,因此通用性有限。如果只采用中心化差分隐私,服务商担心原始数据泄露从而导致隐私泄露。

技术实现思路

[0003]为克服上述现有技术的不足,本专利技术提供了一种本地化差分隐私与中心化差分隐私结合的数据脱敏方法、设备及存储介质。
[0004]为实现上述目的,本专利技术提供的技术方法如下:
[0005]根据本说明书一个或多个实施例的第一方面,提出一种本地化差分隐私与中心化差分隐私结合的数据脱敏方法,其步骤包括:
[0006]步骤S1,对数据的数据项属性,划分为高敏感属性、中敏感属性、低敏感属性。
[0007]步骤S2,对高敏感属性数据项,采用本地化差分隐私算法进行数据脱敏。
[0008]步骤S3,对中敏感属性数据项,采用中心化差分隐私算法进行数据脱敏。
[0009]所述本地化差分隐私与中心化差分隐私结合的数据脱敏方法步骤详述如下:
[0010]步骤S1中,数据源可以是单一或多个数据源;
[0011]数据包含多个数据项属性;对数据的数据项属性,分为高敏感属性、中敏感属性、低敏感属性;
[0012]对于高敏感属性数据项,不允许未脱敏存储到中心数据库;
[0013]对于中敏感属性数据项和低敏感属性数据项,允许未脱敏存储到中心数据库;
[0014]步骤S2中,对于高敏感属性数据项,其脱敏流程为:
[0015]从数据源获取原始数据;
[0016]对原始数据采用本地化差分隐私算法进行脱敏;
[0017]将脱敏后的数据存储到中心数据库。
[0018]上述过程中,对于同一或不同数据源的不同高敏感属性数据,根据对数据进行统计分析的主要类型,设置本地化差分隐私算法及参数。
[0019]步骤S3中,对于中敏感属性数据项,不脱敏存储到中心数据库;
[0020]当用户向中心数据库进行某种查询,查询结果包含该数据项时,采用中心化差分隐私算法,即对查询的结果数据采用中心化差分隐私算法添加扰动后,发布给用户;
[0021]上述添加扰动过程中,查询的结果数据保存在内存或者中心数据库原数据存储区域之外的存储区域,中心数据库存储的原数据不发生改变。
[0022]上述过程中,根据对数据进行统计分析的类型对用户查询进行分类;
[0023]根据查询类型,设置中心化差分隐私算法及参数。
[0024]根据本说明书一个或多个实施例的第二方面,提出一种电子设备,包括:
[0025]处理器;
[0026]用于存储处理器可执行指令的存储器;
[0027]其中,所述处理器通过运行所述可执行指令以实现本说明书第一方面所述的方法。
[0028]根据本说明书一个或多个实施例的第三方面,提出一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现第一方面所述的方法。
[0029]与现有技术相比,本专利技术的积极效果为:本专利技术提出一种本地化差分隐私与中心化差分隐私结合的数据脱敏方法,对于高敏感属性数据项,采用本地化差分隐私算法进行脱敏,服务商不用担心数据泄露导致的隐私泄露风险;同时本地化差分隐私和中心化隐私结合,有利于取得数据脱敏方法的通用性和可用性的平衡。
附图说明:
[0030]图1是本说明书示例性实施例提供的一种本地化差分隐私与中心化差分隐私结合的数据脱敏方法过程示意图。
[0031]图2是本说明书示例性实施例提供的一种本地化差分隐私与中心化差分隐私结合的数据脱敏方法系统架构示意图。
[0032]具体实施策略:
[0033]以下通过特定的具体实例并结合附图说明本专利技术的实施策略,本领域技术人员可由本说明书所揭示的内容轻易地了解本专利技术的其它优点与功效。本专利技术亦可通过其它不同的具体实例加以施行或应用,本说明书中的各项细节亦可基于不同观点与应用,在不背离本专利技术的精神下进行各种修饰与变更。
[0034]本专利技术提出一种本地化差分隐私与中心化差分隐私结合的数据脱敏方法、设备及存储介质,主要具体过程如图1所示,包括:
[0035]步骤S101,对数据的数据项属性,划分为高敏感属性、中敏感属性、低敏感属性。
[0036]数据源可以是单一或多个数据源;
[0037]数据包含多个数据项属性;对数据的数据项属性,分为高敏感属性、中敏感属性、低敏感属性;
[0038]对于高敏感属性数据项,不允许未脱敏存储到中心数据库;
[0039]对于中敏感属性数据项和低敏感属性数据项,允许未脱敏存储到中心数据库;
[0040]实施例子1如下:本专利技术上述优选的一个实施例如图2所示,对数据源的数量为n,并对每个数据源的数据项属性进行划分,每个数据项属性划分为高敏感属性、中敏感属性、低敏感属性中的一种。
[0041]如所述实施例子1,具体的,某重疾险保险系统包含投保人保单数据,投保人疾病及治疗数据两个数据源,投保人保单数据项属性中,将投保人住址位置划为高敏感属性;投
保人疾病及治疗数据项属性中,将投保人年龄划分为高敏感属性。
[0042]步骤S102,对高敏感属性数据项,采用本地化差分隐私算法进行数据脱敏。
[0043]对于高敏感属性数据项,其脱敏流程为:
[0044]从数据源获取原始数据;
[0045]对原始数据采用本地化差分隐私算法进行脱敏;
[0046]将脱敏后的数据存储到中心数据库。
[0047]上述过程中,对于同一或不同数据源的不同高敏感属性数据,根据统计分析的主要类型,设置本地化差分隐私算法及参数。
[0048]如所述实施例子1,对于多个数据源的高敏感属性数据项,采用基于随机响应的本地化差分隐私算法进行数据脱敏,然后将数据发送到中心数据库存储。基于随机响应的本地化差分隐私算法可进一步分为多种算法。本地化差分隐私算法模块支持多种具体的基于随机响应的本地化差分隐私算法,比如W

RR算法,K

RR算法。
[0049]如所述实施例子1,具体的,某重疾险保险系统,对投保人年龄高敏感属性数据项,本地化差分隐私算法模块采用W

RR差分隐私算法脱敏后,存储到中心数据库。对投保人住址位置高敏感属性数据项,本地化差分隐私算法模块采用K

RR差分隐私算法脱敏后,存储到中心数据库。
[0050]步骤S103,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种本地化差分隐私与中心化差分隐私结合的数据脱敏方法,其特征在于:(1)对数据的数据项属性,分为高敏感属性、中敏感属性、低敏感属性;(2)对高敏感属性数据项,采用本地化差分隐私算法进行数据脱敏;(3)对中敏感属性数据项,采用中心化差分隐私算法进行数据脱敏。2.根据权利要求1所述的方法,其特征在于:数据源可以是单一或多个数据源;数据包含多个数据项属性;对数据的数据项属性,分为高敏感属性、中敏感属性、低敏感属性;对于高敏感属性数据项,不允许未脱敏存储到中心数据库;对于中敏感属性数据项和低敏感属性数据项,允许未脱敏存储到中心数据库。3.根据权利要求1所述的方法,其特征在于:对于高敏感属性数据项,其脱敏流程为:从数据源获取原始数据;对原始数据采用本地化差分隐私算法进行脱敏;将脱敏后的数据存储到中心数据库。4.根据权利要求1所述的方法,其特征在于:对于中敏感属性数据项,不脱敏存储到中心数据库;当用户向中心数据库进行某种查询,查询结果包含该数据项时...

【专利技术属性】
技术研发人员:曾焱方跃坚
申请(专利权)人:九有技术深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1