一种水平划分数据集的差分隐私保护安全多方数据发布方法技术

技术编号:37992742 阅读:6 留言:0更新日期:2023-06-30 10:07
本发明专利技术公开了一种水平划分数据集的差分隐私保护安全多方数据发布方法,属于数据安全与隐私保护领域。该方法首先是各个数据拥有者在服务器帮助下得到加噪的单个属性的分布并进行预处理;然后,服务器和各个数据拥有者共同计算所有属性对的关联强度,并由服务器选出关联度强的属性对;其次,各个数据拥有者对选出的属性对进行合并得到一些多属性的组合,并和服务器共同计算加噪的多属性边缘分布;最后,对加噪的多属性边缘分布进行后处理,并用处理后的边缘分布对一个随机的初始综合数据集进行更新,从而得到合成的综合数据集。本发明专利技术将现有的单方数据合成方案PrivSyn扩展到多方,可用于安全多方数据发布,应用范围更加广泛。泛。泛。

【技术实现步骤摘要】
一种水平划分数据集的差分隐私保护安全多方数据发布方法


[0001]本专利技术属于数据安全与隐私保护领域,涉及一种水平划分数据集的差分隐私保护安全多方数据发布方法。

技术介绍

[0002]随着大数据技术的快速发展,高维数据如医疗保健数据或者用户行为数据,被收集并用于不同目的。通常,这些数据被不同的公司或机构拥有,把这些数据聚合起来,可以更好地支持决策或提供服务。但是,各方持有的数据集可能包含个体的敏感信息,如果各方简单地集成本地数据集并共享,会对数据集中个体的隐私构成严重威胁。所以,在聚合各方的数据集的时候,应该满足隐私保护要求。
[0003]近年来,隐私保护数据发布问题引起了学者们的关注,在多次尝试定义数据发布中的隐私要求之后,差分隐私成为大家广泛接受的隐私模型。与传统隐私模型(如k

匿名,l

多样性)不同,差分隐私为数据发布提供了强有力的理论保证,不会受到攻击者背景知识的影响。
[0004]差分隐私保护数据发布问题目前已被广泛研究,有单方发布方法也有多方发布方法。单方发布方法有PrivBayes、JTree、PivSyn等。PrivBayes是用贝叶斯网络定义一组加噪低维分布,来近似输入数据的联合分布;JTree是从依赖图中识别出一组边缘分布表,以基于结树算法的推理基础来近似联合分布;PivSyn则是用大量的低维边缘分布更新一个初始数据集,最终得到和低维边缘分布接近的合成数据集。前述3种方法都是通过估计低维边缘分布得到近似的总体联合分布,其中PivSyn性能最优,此方法在“NIST.2018differential privacy synthetic data challenge”比赛中曾经被提出。多方发布方法有后提出的DP

SUBN、DPLT等。DP

SUBN用于水平划分数据集场景,在第三方的帮助下,各个参与者共同初始化一个贝叶斯网络结构并以串行方式对其进行更新,然后学习贝叶斯网络的参数,最后第三方从贝叶斯网络抽样得到数据集;DPLT则是用于垂直划分数据集场景,在第三方的帮助下,任两方分别生成一个隐树模型(特殊的贝叶斯网络结构),并将两个索引树(即只有隐属性节点)合并为一个树,然后第三方对其进行抽样,得到数据集。前述方法中,PrivBayes、JTree、DP

SUBN、DPLT都是把低维边缘分布放到图模型中,并用采样的方法生成合成数据集,当图比较密集,算法效率就不高,对于需要用到安全多方计算的多方场景,复杂度更甚,而PivSyn没有采用图模型,而是用大量低维边缘分布更新初始合成数据集,看起来就简单高效很多。
[0005]因此,本专利技术受PivSyn启发,将其扩展到多方场景下,不像DP

SUBN、DPLT一样用繁琐的图模型来表示数据集,而是选择一些关联度高的属性组合,并用它们的低维边缘分布更新随机初始化的合成数据集,使得最终合成数据集的分布与所有的低维边缘分布接近。

技术实现思路

[0006]专利技术目的:本专利技术提供一种水平划分数据的差分隐私保护安全多方数据发布方
法,将现有的单方数据合成方案PivSyn扩展到多方,可用于安全多方数据发布,应用范围更加广泛。
[0007]为实现上述专利技术目的,本专利技术所提供的技术方案如下:
[0008]一种水平划分数据的差分隐私保护安全多方数据发布方法,包括以下步骤:
[0009]S1、各个数据拥有者在服务器帮助下得到加噪的单个属性的分布并进行预处理;
[0010]其中,所加的噪声为拉普拉斯噪声,由4个服从正态分布的高斯变量Y
i
~N(0,λ/2),i∈{1,2,3,4}产生:其中Lap(λ)的概率分布函数为且每个数据拥有者都有4个高斯变量;
[0011]S2、服务器和各个数据拥有者共同计算所有属性对的关联强度,并由服务器选出关联度强的属性对;
[0012]假设有d个属性X1,

,X
d
,则需计算所有个属性对的关联强度,关联强度用InDif
a,b
=|M
a,b

M
a
×
M
b
|
22
衡量,其中M
a,b
是属性对ab的真实联合分布,M
a
×
M
b
是假设属性a和b独立,它们的分布的外积,M是分布表,|
·
|2表示二范数;
[0013]属性对选择问题可以转换为一个优化问题:
[0014][0015]其中每个属性对对应一个标号i(i∈{1,

,m});示性变量x
i
=1表示属性对被选择,反之未被选择;Ψ
i
是由拉普拉斯噪声引入的噪声误差,取l1误差,即Ψ
i
=c
i

i
,其中c
i
是第i个属性对的大小,即c
i
=2(i∈{1,...,m}),而λ
i
是第i个属性对所加拉普拉斯噪声的尺度;Φ
i
表示由属性对应该被选择但却没有被选引起的依赖误差,且Φ
i
和InDif
i
正相关,所以对Φ
i
进行近似:Φ
i
≈InDif
i
+noise(noise是和步骤(S1)一样用高斯变量生成的拉普拉斯噪声,隐私预算不同);
[0016]S3、各个数据拥有者对选出的属性对进行合并得到一些多属性的分布,并和服务器共同计算加噪的多属性边缘分布(即多个属性的联合分布);
[0017]S4、对加噪的多属性边缘分布进行后处理,并用处理后的边缘分布对一个随机的初始综合数据集进行更新,从而得到合成的综合数据集。
[0018]进一步的,步骤(S1)包括如下过程:
[0019]各个数据拥有者在服务器的帮助下得到加噪的单个属性的分布;
[0020]数据拥有者们对得到的加噪的单个属性的分布进行预处理,即筛选并合并低频率的取值。
[0021]进一步的,步骤(S2)包括如下过程:
[0022]各个数据拥有者为所有属性对以及属性对涉及的两个属性分配标号(服务器不会知道),并将各自数据集中属性对的分布以及涉及的两个属性的分布用阈值Paillier算法进行加密,然后发给服务器;
[0023]服务器用InDif
a,b
=|M
a,b

M
a
×
M
b
|
22
计算每个属性对的InDif;
[0024]服务器选出使总体误差最小的一些属性对,返回被选属性对的标号。
[0025]进一步的,步骤(S3)包括如下过程:
[0026]服务器将步骤(S2)选出的属性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种水平划分数据集的差分隐私保护安全多方数据发布方法,其特征在于,包括以下步骤:S1、各个数据拥有者在服务器帮助下得到加噪的单个属性的分布并进行预处理;所加的噪声为拉普拉斯噪声,由4个服从正态分布的高斯变量Y
i
~N(0,λ/2),i∈{1,2,3,4}产生:其中Lap(λ)的概率分布函数为其中Lap(λ)的概率分布函数为且每个数据拥有者都有4个高斯变量;S2、服务器和各个数据拥有者共同计算所有属性对的关联强度,并由服务器选出关联度强的属性对;假设有d个属性X1,

,X
d
,则需计算所有个属性对的关联强度,关联强度用InDif
a,b
=|M
a,b

M
a
×
M
b
|
22
衡量,其中M
a,b
是属性对ab的真实联合分布,M
a
×
M
b
是假设属性a和b独立,它们的分布的外积,M是分布表,|
·
|2表示二范数;属性对选择问题转换为一个优化问题:其中每个属性对对应一个标号i(i∈{1,

,m});示性变量x
i
=1表示属性对被选择,反之未被选择;Ψ
i
是由拉普拉斯噪声引入的噪声误差,取l1误差,即Ψ
i
=c
i

i
,其中c
i
是第i个属性对的大小,即c
i
=2(i∈{1,

,m}),而λ
i
是第i个属性对所加拉普拉斯噪声的尺度;Φ
i
表示由属性对应该被选择但却没有被选引起的依赖误差,且Φ
i
和InDif
i
正相关,所以对Φ
i
进行近似:Φ
i
≈InDif
i
+noise;noise是和步骤(S1)一...

【专利技术属性】
技术研发人员:王珂朱友文蒋炎
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1