一种水平划分数据集的差分隐私保护安全多方数据发布方法技术

技术编号：37992742 阅读：6 留言：0更新日期：2023-06-30 10:07

本发明专利技术公开了一种水平划分数据集的差分隐私保护安全多方数据发布方法，属于数据安全与隐私保护领域。该方法首先是各个数据拥有者在服务器帮助下得到加噪的单个属性的分布并进行预处理；然后，服务器和各个数据拥有者共同计算所有属性对的关联强度，并由服务器选出关联度强的属性对；其次，各个数据拥有者对选出的属性对进行合并得到一些多属性的组合，并和服务器共同计算加噪的多属性边缘分布；最后，对加噪的多属性边缘分布进行后处理，并用处理后的边缘分布对一个随机的初始综合数据集进行更新，从而得到合成的综合数据集。本发明专利技术将现有的单方数据合成方案PrivSyn扩展到多方，可用于安全多方数据发布，应用范围更加广泛。泛。泛。

全部详细技术资料下载

【技术实现步骤摘要】
一种水平划分数据集的差分隐私保护安全多方数据发布方法

[0001]本专利技术属于数据安全与隐私保护领域，涉及一种水平划分数据集的差分隐私保护安全多方数据发布方法。

技术介绍

[0002]随着大数据技术的快速发展，高维数据如医疗保健数据或者用户行为数据，被收集并用于不同目的。通常，这些数据被不同的公司或机构拥有，把这些数据聚合起来，可以更好地支持决策或提供服务。但是，各方持有的数据集可能包含个体的敏感信息，如果各方简单地集成本地数据集并共享，会对数据集中个体的隐私构成严重威胁。所以，在聚合各方的数据集的时候，应该满足隐私保护要求。
[0003]近年来，隐私保护数据发布问题引起了学者们的关注，在多次尝试定义数据发布中的隐私要求之后，差分隐私成为大家广泛接受的隐私模型。与传统隐私模型(如k
‑
匿名，l
‑
多样性)不同，差分隐私为数据发布提供了强有力的理论保证，不会受到攻击者背景知识的影响。
[0004]差分隐私保护数据发布问题目前已被广泛研究，有单方发布方法也有多方发布方法。单方发布方法有PrivBayes、JTree、PivSyn等。PrivBayes是用贝叶斯网络定义一组加噪低维分布，来近似输入数据的联合分布；JTree是从依赖图中识别出一组边缘分布表，以基于结树算法的推理基础来近似联合分布；PivSyn则是用大量的低维边缘分布更新一个初始数据集，最终得到和低维边缘分布接近的合成数据集。前述3种方法都是通过估计低维边缘分布得到近似的总体联合分布，其中PivSyn性能最...

【技术保护点】

【技术特征摘要】
1.一种水平划分数据集的差分隐私保护安全多方数据发布方法，其特征在于，包括以下步骤：S1、各个数据拥有者在服务器帮助下得到加噪的单个属性的分布并进行预处理；所加的噪声为拉普拉斯噪声，由4个服从正态分布的高斯变量Y
i
～N(0，λ/2)，i∈{1，2，3，4}产生：其中Lap(λ)的概率分布函数为其中Lap(λ)的概率分布函数为且每个数据拥有者都有4个高斯变量；S2、服务器和各个数据拥有者共同计算所有属性对的关联强度，并由服务器选出关联度强的属性对；假设有d个属性X1，
…
，X
d
，则需计算所有个属性对的关联强度，关联强度用InDif
a，b
＝|M
a，b
‑
M
a
×
M
b
|
22
衡量，其中M
a，b
是属性对ab的真实联合分布，M
a
×
M
b
是假设属性a和b独立，它们的分布的外积，M是分布表，|
·
|2表示二范数；属性对选择问题转换为一个优化问题：其中每个属性对对应一个标号i(i∈{1，
…
，m})；示性变量x
i
＝1表示属性对被选择，反之未被选择；Ψ
i
是由拉普拉斯噪声引入的噪声误差，取l1误差，即Ψ
i
＝c
i
*λ
i
，其中c
i
是第i个属性对的大小，即c
i
＝2(i∈{1，
…
，m})，而λ
i
是第i个属性对所加拉普拉斯噪声的尺度；Φ
i
表示由属性对应该被选择但却没有被选引起的依赖误差，且Φ
i
和InDif
i
正相关，所以对Φ
i
进行近似：Φ
i
≈InDif
i
+noise；noise是和步骤(S1)一...

【专利技术属性】
技术研发人员：王珂，朱友文，蒋炎，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人