【技术实现步骤摘要】
一种基于本地差分隐私的效用优化集合数据保护方法
[0001]本专利技术属于信息安全领域,具体涉及一种基于本地差分隐私的效用优化集合数据保护方法。
技术介绍
[0002]随着经济科技的迅速发展,智能终端等设备也愈发普及,随之产生的用户数据被相关公司收集、研究。集合数据就是现实生活中一种很常见的数据形式,有着广泛的应用场景。通过分析集合数据,可以挖掘出它们中的隐藏信息,进而为用户提供更好的服务。如收集用户的视频浏览记录,分析用户偏好并完善推荐系统,收集用户的医疗记录,为用户提供疾病的预期诊断。但是同时,这些数据中也往往包含着大量的隐私信息,如果直接将其提供给其他人使用,会对用户的人身、财产安全造成极大的威胁,这也会使得用户共享数据的意愿降低。因此,如何在保护用户隐私的前提下,对数据进行收集、分析、发布,是一个亟待解决的问题。
[0003]差分隐私是由文献[Dwork C.“Differential privacy:A survey of results”,International conference on theor ...
【技术保护点】
【技术特征摘要】
1.一种基于本地差分隐私的效用优化集合数据保护方法,其特征在于:包括以下步骤:S1、服务器将原始数据域X划分为敏感数据域X
S
和非敏感数据域X
N
,且确定用户数据指定条数m,虚假数据域X
T
和所使用的隐私预算ε,并把X
S
,X
N
,X
T
,m和ε公开给用户;S2、用户对自己的数据进行预处理,若数据条数大于m,则从中随机抽取m条,若数据条数小于m,则使用虚假数据补齐到m条,虚假数据由用户自己从X
T
选择,虚假数据也属于非敏感数据;s
′
表示用户预处理后的数据,即s
′
={x1,x2,
…
,x
m
},X
′
表示全体数据域,即X
′
=X∩X
T
;S3、用户根据s
′
中数据所属类别进行扰动,并把扰动后的数据和扰动中使用的哈希函数发送给服务器;S4、服务器根据用户发送的扰动后数据和扰动中使用的哈希函数进行统计分析,估算出原始数据的频率分布结果。2.根据权利要求1所述的基于本地差分隐私的效用优化集合数据保护方法,其特征在于:在步骤(S3)中,用户端原始数据的扰动包括如下过程:S31、由用户自己选择哈希函数h:X
→
[0.0,1.0),即哈希函数h的输入域为全体数据域X
′
,输出域为[0.0,1.0),然后对s
′
中每一条数据进行哈希,得到哈希后的数据v={h(x1),h(x2),
…
,h(x
m
)}={v1,v2,
…
,v
m
};S32、计算覆盖长度正则化因子Ω=mpe
ε
+1
‑
mp,覆盖区域C
v
={t|t∈[v
i
,v
i
+p)或[0,v
i
+p
‑
1),i∈[1,m]}和覆盖区域的总长度l,然后按照如下公式所示概率密度得到y0:S33、令针对s
′
中每一条数据x
i
,若x
i
∈s
′
N
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。