【技术实现步骤摘要】
一种基于垂直分割的差分隐私异构多属性数据发布方法
[0001]本专利技术属于计算机软件领域,具体涉及一种基于垂直分割的差分隐私异构多属性数据发布方法。
技术介绍
[0002]网络信息技术的快速发展,推动了互联网应用的逐步普及,在提供便利的同时,大量数据信息通过个人用户、企业单位、研究机构等源源不断地产生,并被各种智能设备收集。通过对这些收集到的数据进行分析和处理,可以进一步挖掘其潜在的价值,创造巨大的社会效益。在现实生活中,大量的数据往往收集于不同的智能设备,即同一个体的不同属性集数据被收集于不同组织或机构,从而单个个体的数据被多方以垂直方式分割。多方协作发布整合数据集,可以使数据使用者更充分地挖掘不同数据潜在的关联,为制定决策提供更好的支持。例如,某地区的医院和银行拥有同一组市民的医疗数据R1和金融数据R2,其中R1记录市民的医疗信息,R2记录市民的金融信息。毫无疑问,整合市民的医疗数据和金融数据,对用户医疗水平和经济水平进行关联性分析,可以帮助政府部门制定更好的卫生政策。然而,由于每一方持有的数据中通常蕴含大量的个人敏感 ...
【技术保护点】
【技术特征摘要】
1.一种基于垂直分割的差分隐私异构多属性数据发布方法,其特征在于,包括以下步骤:(1)自适应隐私预算分配:数据拥有者P
i
根据局部数据集D
i
的数据敏感性和隐私属性暴露概率计算隐私预算ε
i
;(2)提出隐树模型参数和结构学习相统一的满足差分隐私的隐树模型学习:数据拥有者P
i
利用隐树模型学习算法构建隐树结构,使构建的Τ
i
满足ε
i1
‑
差分隐私,同时基于Τ
i
计算的Θ
i
满足ε
i2
‑
差分隐私;P
i
将Τ
i
和Θ
i
发送给第三方,第三方通过隐树模型学习算法构建整合数据集的隐树结构Τ,同时更新参数Θ;(3)合成数据发布:根据隐树结构Τ和加噪Θ,采样每个属性的条件分布,生成扰动数据集D',并对外发布。2.根据权利要求1所述的基于垂直分割的差分隐私异构多属性数据发布方法,其特征在于,所述步骤(1)实现过程如下:自适应隐私预算分配参数由数据敏感性SD和隐私属性暴露概率L
pb
两部分组成;两部分组成;其中,Sen
attr
表示敏感属性,Sen
val
表示敏感属性的值,η和σ分别为数据敏感度和隐私泄露概率的权重,η+σ=1,权重的分配由数据拥有者根据具体数据隐私保护要求确定,对不同的隐私保护需求可以调节数据敏感度和隐私泄露概率的权重来进行自适应隐私预算分配,实现不同的隐私保护强度。3.根据权利要求1所述的基于垂直分割的差分隐私异构多属性数据发布方法,其特征在于,步骤(2)所述的隐树模型参数学习实现过程如下:基于双向推理算法计算隐属性Y的联合条件分布,当Y
j
的孩子节点不是显属性时,β
j
的计算需要从叶节点开始向上传递,计算每个隐属性节点Y
j
∈Y的β
j
,具体公式如下:其中,{Y
c
}是Y
j
的孩子节点集合;从根节点开始自上而下推理,计算每个隐属性节点Y
j
∈Y的α
j
:其中,{Y
s
:Y
P(s)
=Y
P(j)
,Y
s
≠Y
j
}是Y
j
的兄弟节点集合;对于任意隐属性节点Y
j
∈Y,计算边缘条件分布Pr(Y
j
,Y
P(i)
|X
(n)
):其中,{Y<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。